Google DeepMind、OpenAI等最新研究:如何評估AI模型極端風險?

目前,構建通用人工智能(AGI)系統的方法,在幫助人們更好地解決現實問題的同時,也會帶來一些意外的風險。

因此,在未來,人工智能的進一步發展可能會導致很多極端風險,如具有攻擊性的網絡能力或強大的操縱技能等等。

今天,Google DeepMind 聯合劍橋大學、牛津大學等高校和 OpenAI、Anthropic等企業,以及 Alignment Research Center 等機構,在預印本網站 arXiv 上發表了題爲“Model evaluation for extreme risks”的文章,提出了一個針對新型威脅評估通用模型的框架,並解釋了爲何模型評估對應對極端風險至關重要。

他們認爲,開發者必須具備能夠識別危險的能力(通過"危險能力評估"),以及模型應用其能力造成傷害的傾向(通過"對齊評估")。這些評估將對讓決策者和其他利益相關方保持瞭解,並對模型的訓練、部署和安全做出負責任的決策至關重要。

學術頭條(ID:SciTouTiao)在不改變原文大意的情況下,做了簡單的編譯。內容如下:

爲了負責任地推動人工智能前沿研究的進一步發展,我們必須儘早識別人工智能系統中的新能力和新風險。

人工智能研究人員已經使用一系列評估基準來識別人工智能系統中不希望出現的行爲,如人工智能系統做出誤導性的聲明、有偏見的決定或重複有版權的內容。現在,隨着人工智能社區建立和部署越來越強大的人工智能,我們必須擴大評估範圍,包括對具有操縱、欺騙、網絡攻擊或其他危險能力的通用人工智能模型可能帶來的極端風險的考慮。

我們與劍橋大學、牛津大學、多倫多大學、蒙特利爾大學、OpenAI、Anthropic、Alignment Research Center、Centre for Long-Term Resilience 和 Centre for the Governance of AI 合作,介紹了一個評估這些新威脅的框架。

模型安全評估,包括評估極端風險,將成爲安全的人工智能開發和部署的重要組成部分。

圖|方法概述:爲了評估來自新的、通用的人工智能系統的極端風險,開發者必須評估其危險能力和對齊水平。早期識別風險,可以使得在訓練新的人工智能系統、部署這些人工智能系統、透明地描述它們的風險以及應用適當的網絡安全標準時更加負責。

通用模型通常在訓練中學習它們的能力和行爲。然而,現有的指導學習過程的方法並不完善。例如,Google DeepMind 之前的研究已經探討了人工智能系統如何學習追求人們不希望看到的目標,即使我們正確地獎勵了它們的良好行爲。

負責任的人工智能開發者必須更進一步,預測未來可能的發展和新的風險。隨着持續進步,未來的通用模型可能會默認學習各種危險的能力。例如,未來的人工智能系統能夠進行攻擊性的網絡活動,在對話中巧妙地欺騙人類,操縱人類進行有害的行爲,設計或獲取武器(如生物、化學武器),在雲計算平臺上微調和操作其他高風險的人工智能系統,或者協助人類完成任何這些任務,這都是可能的(儘管不確定)。

懷有不良意圖的人可能會濫用這些模型的能力。或者,由於無法與人類價值觀和道德對齊,這些人工智能模型可能會採取有害的行動,即使沒有人打算這樣做。

模型評估有助於我們提前識別這些風險。在我們的框架下,人工智能開發者將使用模型評估來揭開:

這些評估的結果將幫助人工智能開發者瞭解是否存在足以導致極端風險的因素。最高風險的情況將涉及多種危險能力的組合。如下圖:

圖|構成極端風險的要素:有時,特定的能力可能會被外包,可以是交給人類(例如用戶或衆包工作者)或其他AI系統。這些能力必須被用於造成傷害,無論是因爲濫用還是因爲對齊失敗(或兩者皆有)。

一個經驗法則:如果一個人工智能系統具有足以造成極端傷害的能力特徵,假設它被濫用或無法對齊,那麼人工智能社區應將其視爲“高度危險”。要在現實世界中部署這樣的系統,人工智能開發者需要展現出異常高的安全標準。

如果我們有更好的工具來識別哪些模型是有風險的,公司和監管機構就能更好地確保:

我們已經制定了一個藍圖,說明了針對極端風險的模型評估應如何爲訓練和部署能力強大的通用模型的重要決策提供支持。開發者在整個過程中進行評估,並授權外部安全研究人員和模型審覈員對模型進行結構化訪問,以便他們進行額外的評估。評估結果可以在模型訓練和部署之前提供風險評估的參考。

圖|將針對極端風險的模型評估嵌入到整個模型訓練和部署的重要決策過程中。

在Google DeepMind和其他地方,對於極端風險的模型評估的重要初步工作已經開始進行。但要構建一個能夠捕捉所有可能風險並有助於防範未來新出現的挑戰的評估流程,我們需要更多的技術和機構方面的努力。

模型評估並不是萬能的解決方案;有時,一些風險可能會逃脫我們的評估,因爲它們過於依賴模型外部的因素,比如社會中複雜的社會、政治和經濟力量。模型評估必須與其他風險評估工具以及整個行業、政府和大衆對安全的廣泛關注相結合。

谷歌最近在其有關負責任人工智能的博客中提到,“個體實踐、共享行業標準和合理的政府政策對於正確使用人工智能至關重要”。我們希望許多從事人工智能工作和受這項技術影響的行業能夠共同努力,爲安全開發和部署人工智能共同制定方法和標準,造福所有人。

我們相信,擁有跟蹤模型中出現的風險屬性的程序,以及對相關結果的充分迴應,是作爲一個負責任的開發者在人工智能前沿研究工作中的關鍵部分。