Frontier Safety Framework:DeepMind推出的AI安全框架,辨識和減輕高階AI模型的未來風險。

連結:https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework

Frontier Safety Framework是Google DeepMind提出的一套協定,用於主動辨識未來AI能力可能導致嚴重傷害的情況,並建立機制來偵測和減輕這些風險。該框架專注於模型層面的強大能力,如卓越的代理能力或複雜的網路能力。它旨在補充我們的對齊研究,即訓練模型按照人類價值觀和社會目標行事,以及Google現有的AI責任和安全實踐。

需求人群:

  • 目標受眾為AI研究人員、開發者以及對AI安全和倫理有關注的企業和政策制定者。該框架提供了一套評估和減輕AI風險的方法論,幫助他們構建更安全、更符合人類價值觀的AI系統。

使用場景示例:

  • 用於評估AI模型在自動駕駛領網網域的潛在風險。
  • 在藥物發現中,確保AI模型的推薦不會帶來未預見的副作用。
  • 在經濟生產力提升中,防止AI模型的決策導致不公平或不道德的結果。

產品特色:

  • 確定模型可能具有的潛在嚴重傷害的能力。
  • 定期評估前沿模型,偵測它們是否達到關鍵能力水平。
  • 當模型透過預警評估時,應用減輕計劃。
  • 基於四個領網網域的初步關鍵能力水平:自主性、生物安全、網路安全和機器學習研究與開發。
  • 為每個關鍵能力水平定製減輕措施的強度。
  • 投資於前沿風險評估的科學,並不斷完善框架。
  • 遵循Google的AI原則,定期審查和更新框架。

使用教學:

  • 第一步:確定模型可能具有的潛在嚴重傷害的能力。
  • 第二步:定期對前沿模型進行評估,偵測是否達到關鍵能力水平。
  • 第三步:開發預警評估套件,以在模型接近關鍵能力水平時發出警報。
  • 第四步:當模型透過預警評估時,根據整體利益和風險平衡以及預期部署環境,應用減輕計劃。
  • 第五步:根據關鍵能力水平定製減輕措施的強度。
  • 第六步:投資於前沿風險評估的科學,並不斷完善框架。
  • 第七步:遵循Google的AI原則,定期審查和更新框架。
返回頂端