翁荔離職OpenAI後第一個動作:萬字長文探討RLHF漏洞,網友搶着看

之前領導OpenAI安全團隊的北大校友翁荔(Lilian Weng),離職後第一個動作來了。

當然是發~博~客。

前腳剛發出來,後腳就被大夥兒齊刷刷碼住,評論區一堆人排隊加待讀清單。

還有不少OpenAI前同事轉發推薦。

這次的博客一如既往萬字乾貨,妥妥一篇研究綜述,翁荔本人直言寫起來不容易。

主題圍繞強化學習中獎勵黑客(Reward Hacking)問題展開,即Agent利用獎勵函數或環境中的漏洞來獲取高獎勵,而並未真正學習到預期行爲。

她強調獎勵黑客行爲在大模型的RLHF訓練中的潛在影響,並呼籲更多研究關注理解和緩解這一問題。

傳統概念強化學習中,Agent利用獎勵函數中的缺陷或模糊性來獲得高額獎勵,而沒有真正學習或完成預期任務,是一個常見的問題。

她舉的例子包括:

在大模型中,Reward hacking則可能表現爲:

翁荔認爲Reward hacking的存在有兩大原因:

語言模型興起的時代,並且RLHF成爲對齊訓練事實上的方法,語言模型強化學習中的Reward hacking表現也相當令她擔憂。

過去學術界對這個話題的研究都相當理論,專注於定義或證明Reward hacking的存在,然而關於實際該如何緩解這種現象的研究仍然有限。

她寫這篇博客,也是想呼籲更多研究關注、理解和緩解這一問題。

爲了定義Reward Hacking,翁荔首先回顧了近年來學術界提出的相關概念

包括獎勵腐敗(Reward corruption)、獎勵篡改(Reward tampering)等等。

其中,Reward hacking這個概念,早在2016年由Anthropic創始人Dario Amodei共一論文提出。

當時他和另一位聯創Chris Olah還在谷歌大腦,且已經與OpenAI聯創John Schulman展開合作。

如今他們仨又在Anthropic匯合了……

言歸正傳,綜合一系列研究,翁荔認爲Reward Hacking在較高層次上可分爲兩類:

同時她也認爲設計有效的獎勵塑造機制本質上很困難。

另外在分佈外環境中測試強化學習Agent時,還可能出現以下問題:

那麼,爲什麼會出現Reward Hacking?根據Amodei等人2016年的分析成因包括:

此外,觀察到的Agent行爲可能與無數個獎勵函數相一致,準確識別其真正優化的獎勵函數在一般情況下是不可能的。

翁荔預計隨着模型和算法的日益複雜,Reward Hacking問題會更加普遍。

更智能的模型更善於發現並利用獎勵函數中的”漏洞”,使Agent獎勵與真實獎勵出現偏差。相比之下,能力較弱的算法可能無法找到這些漏洞。

那麼,大模型時代的Reward Hacking,又有哪些獨特之處?

在RLHF訓練中,人們通常關注三種類型的獎勵:

翁荔認爲,RLHF通常優化代理獎勵分數,但人們最終關心的是黃金獎勵分數。

例如,模型可能經過優化,學會輸出看似正確且有說服力的回答,但實際上卻是不準確的,這可能會誤導人類評估者更頻繁地批准其錯誤答案。

在一項RLHF研究中,使用了大模型競技場ChatbotArena數據訓練獎勵模型,就出現AI更擅長說服人類它們是正確的情況:

此外,隨着大模型越來越多作爲評估者對其他模型提供反饋,也可能進一步引入偏差。

翁荔認爲這種偏差尤其令人擔心,因爲評估模型的輸出被用作獎勵信號的一部分,可能容易被利用。

比如2023年一項實驗中,簡單改變候選答案的順序就能改變結果,GPT-4傾向於給第一個答案高分數,ChatGPT(3.5)更傾向於第二個。

另外,即使不更新參數,大模型僅靠上下文學習能力也可能產生Reward hacking現象,稱爲ICRH(In-context Reward Hacking)。

ICRH與傳統Reward Hacking還有兩個顯著不同:

翁荔認爲目前還沒有避免、檢測或預防ICRH的有效方法,僅僅提高提示的準確性不足以消除ICRH,而擴大模型規模可能會加劇ICRH。

在部署前進行測試的最佳實踐是通過更多輪次的反饋、多樣化的反饋以及注入非典型環境觀察來模擬部署時可能發生的情況。

最後翁荔表示儘管有大量文獻討論獎勵黑客現象,但少有工作提出緩解獎勵黑客的措施。

她簡要回顧了三種潛在方法。

一種是改進強化學習算法。

前面提到的Anthropic創始人Dario Amodei2016年共一論文“Concrete Problems in AI Safety”中,指出了一些緩解方向,包括:

對抗性獎勵函數(Adversarial reward functions)、模型預測(Model Lookahead)、對抗性盲化(Adversarial blinding)、謹慎的工程設計(Careful engineering)、獎勵上限(Reward capping)、反例抵抗(Counterexample resistance)、多獎勵組合(Combination of multiple rewards)、獎勵預訓練(Reward pretraining)、變量不敏感性(Variable indifference)、陷阱機制(Trip wires)。

此外,谷歌DeepMind團隊此前提出了“解耦批准”的方法來防止獎勵篡改。

在這種方法中,收集反饋的行爲與實際執行的行爲是分開的,反饋會在行爲執行前就給出,避免了行爲對自己反饋的影響。

另一種潛在緩解措施是檢測獎勵黑客行爲。

將獎勵黑客行爲視爲一個異常檢測任務,其中檢測器應標記出不一致的實例。

給定一個可信策略和一組手動標註的軌跡回放,可以基於可信策略和目標策略這兩個策略的動作分佈之間的距離構建一個二分類器,並測量這個異常檢測分類器的準確性。

之前有實驗觀察到,不同的檢測器適用於不同的任務,而且在所有測試的強化學習環境中,沒有任何測試的分類器能夠達到60%以上的AUROC。

第三種潛在緩解措施是分析RLHF數據。

通過檢查訓練數據如何影響對齊訓練結果,可以獲得有關預處理和人類反饋收集的見解,從而降低獎勵黑客風險。

哈佛大學與OpenAI研究人員今年合作提出了一套評估指標,用於衡量數據樣本特徵在建模和對齊人類價值觀方面的有效性。他們在HHH-RLHF數據集上進行了系統的錯誤分析以進行價值對齊(SEAL)。

這一篇博客關於緩解措施的部分還只是“初探”,翁荔對下一篇內容給出了預告:

翁荔是OpenAI前華人科學家、ChatGPT的貢獻者之一,本科畢業於北大,在印第安納大學伯明頓分校攻讀博士。

畢業之後的翁荔先是短暫的在Facebook實習了一段時間,後擔任Dropbox軟件工程師。

她於2017年初加入OpenAI,在GPT-4項目中主要參與預訓練、強化學習和對齊、模型安全等方面的工作。

在OpenAI去年底成立的安全顧問團隊中,翁荔領導安全系統團隊(Safety Systems),解決減少現有模型如ChatGPT濫用等問題。

最著名的Agent公式也由她提出,即:Agent=大模型+記憶+主動規劃+工具使用。

其Google Scholar引用量達14000+。

一個月前,翁荔短暫回國現身2024Bilibili超級科學晚活動,以《AI安全與“培養”之道》爲主題進行了演講分享。

這也是她首次在國內大型活動場合公開發表AI主題演講。

之後沒幾天,翁荔突然發推文表示決定離職OpenAI。

目前她還沒有宣佈下一個計劃,推特簽名透露會與AI安全相關。

領英和谷歌學術頁面也還掛着OpenAI,均未更新。

原文:https://lilianweng.github.io/posts/2024-11-28-reward-hacking/#in-context-reward-hacking

參考鏈接:https://x.com/lilianweng/status/1863436864411341112