限定120分鐘科研挑戰,o1和Claude表現超越人類
2小時內,Claude和o1就能超過人類專家平均科研水平。
甚至AI還會偷摸兒“作弊”(doge)。事情是這樣的——
人類 VS AI科研能力大比拼,也有新的評估基準了。
代號“RE-Bench”,由非營利研究機構METR推出,目的是搞清:當前AI智能體在自動化科研方面有多接近人類專家水平。
注意看,一聲令下之後,AI和50多位人類專家開始暗自較勁:
前2小時,基於Claude 3.5 Sonnet和o1-preview構建的Agent(智能體)表現遠超人類。
但拐點過後,AI能力增速(在8小時內)卻始終追不上人類。
時間拉得更長(至32小時)之後,研究得出結論,目前AI智能體更適合並行處理大量獨立短實驗。
看完上述結果,知名預測師Eli Lifland認爲這“顯著縮短”了他關於AGI的時間表(連續兩年將2027年作爲中位數),由此也在Reddit引起熱議。
上也有人表示,AI自動搞科研可能對推動爆炸性經濟增長至關重要。
甚至有人腦洞大開,開始美滋滋暢想躺着賺錢的生活(doge):
AI更適合大量並行短時間任務,長期科研還得靠人類
在RE-Bench上,研究對比了基於大語言模型構建的Agent(目前主要公佈了Claude 3.5 Sonnet、o1-preview)和50+人類專家的科研能力。
值得注意的是,這些專家都有強大機器學習背景,其中很多人在頂級行業實驗室或機器學習博士項目中工作。
一番PK後,研究得出了以下主要結論:
總之一句話,不僅AI和人類各有所長,且不同AI都有自己最佳的科研節奏。
回到研究起點,METR之所以提出RE-Bench主要是發現:雖然很多政府和公司都在強調,AI智能體能否自動研發是一項關鍵能力。但問題是:
因此,RE-Bench想做的事兒,就是全面評估AI科研所需的技能。本次研究一共提出了7項:
這些任務被設計在≤8小時內,以便人類專家可以使用合理的計算資源完成,從而實現人類與AI的直接比較。
而且主辦方特意提醒,要想獲得高分,就必須最大化利用計算資源來完成這些複雜任務。
通常來說,RE-Bench的運行機制如下:
首先,7項任務都是一個獨立的評估環境,各自都有一個清晰的目標,比如優化一個GPU內核或者調整一個機器學習模型的超參數。
爲了確保任務的可比性,每個環境都提供了一個參考解決方案,這個解決方案是有效的,但效率較低,爲Agent和人類專家提供了一個基準點。
AI和人類專家都可以訪問這些環境,並且都有權限使用所需的計算資源,如GPU。
然後,AI通過自然語言處理和編程能力來執行任務,而人類專家則通過編碼和實驗來完成任務。
執行結束後,每個環境都有一個評分函數,用於衡量Agent或人類專家提交的解決方案的效果。
當然,評分函數會根據解決方案的性能給出一個數值得分,這個得分隨後會被歸一化,以便於在不同環境之間進行比較。
需要注意,過程中還涉及時間預算分配(time budget)。實際情況是,人類專家通常被分配8小時來完成任務,而AI則根據實驗設計在不同的時間限制下進行評估。
舉個例子,對AI來說,8小時的預算可以用於一次8小時的嘗試,也可以分成16次、每次30分鐘的嘗試。
最後,由於在任務執行過程中,研究會收集AI和人類專家的解決方案日誌,以及它們的得分記錄。因此最終將根據這些記錄來評估不同參與者的進步和表現。
實驗結果顯示,在2小時內,基於Claude 3.5 Sonnet和o1-preview構建的智能體表現遠超人類。
更具體來看,如果不取多次運行中的最佳結果(每個單獨繪製8小時運行),AI最初比人類進步更快,但提高分數的速度較慢。
擴大時間線來看,整體上人類專家在較少的長時間嘗試中表現更佳,而AI則從大量並行、獨立的短時間嘗試中受益。
令人印象深刻的是,儘管大多數AI只能輕微改進參考解決方案,但一個o1-preview智能體在優化Triton內核運行時間的任務中超越了人類專家的最佳解決方案。
與此同時,評估過程中甚至發現了AI存在“作弊”行爲。例如,o1-preview智能體在應該減少訓練腳本運行時間的任務中,編寫了只是複製最終輸出的代碼。
來自非營利研究機構METR
以上這項新的基準出自METR,作爲一家非營利研究機構,他們主要通過實證測試評估可能對社會造成災難性危害的AI系統。
目前,RE-Bench只包含7項任務,基準的劣勢也很明顯:
而且還伴隨着一個老生常談的問題:
對此,METR特別提出了幾項措施,來避免將這些任務包含在LLM訓練數據中,並防止過擬合。
更多細節歡迎查閱原論文。