AGI走到分岔路口 大模型“思考力”被低估
21世紀經濟報道記者孔海麗 北京報道
OpenAI的聖誕節驚喜比原定多持續了一天,第13天,OpenAI CEO 塞姆·奧特曼(Sam Altman)宣佈,聖誕假期期間爲所有plus用戶提供無限次使用Sora的機會,這原本是月費200美元的Pro用戶纔有的待遇。
連續12天的新品發佈中,OpenAI先後拿出了完整版o1、加強版Sora、ChatGPT Search、電話功能、新模型o3。
尤其是o3,被評爲OpenAI的“大殺器”,也就是推理模型o1的第二代。爲了避開與英國知名電信運營商o2可能的知識產權糾紛,OpenAI推理模型系列跳過o2,直接命名爲o3。
但OpenAI的ChatGPT-5卻遲遲不見動靜。據知情人士透露,該項目已開發超過18個月,成本花費巨大,卻仍未取得預期成果——Scaling Law的暴力美學似乎已經遇到瓶頸,更大的參數、更多的數據,已經不能爲AI大模型帶來質的飛躍。
當擴大AI大模型的訓練規模失去“高回報”,OpenAI強調推理時間、思考時長的o系列,會是解題思路嗎?
被低估的推理路線
OpenAI o系列發佈時,就有觀點認爲,“當大模型具備了‘思考’能力,通往AGI再也沒有障礙”。如今,o3較o1獲得大幅進步,也再次證明了增加推理時間是一條有效路徑。
OpenAI知名研究員、o1研究團隊的核心科學家諾姆·布朗(Noam Brown)近期表達了對“推理時計算”技術的樂觀期待。
所謂“推理時計算”技術,是擴展推理過程中的計算量,讓大模型能夠在推理階段進行更深入的思考和計算,從而解決更復雜的問題。
諾姆·布朗認爲,在Scaling Law法則下,通過擴大預訓練規模來提升模型性能雖行之有效,但其所伴隨的高昂成本問題不容忽視,並且從長遠來看,這種方式必然會遭遇發展瓶頸,難以爲繼。而“推理時計算”技術的出現,爲解決這一瓶頸提供了全新的思路,將加速AGI的到來。
o1和o3大模型是“推理時計算”技術迭代出來的大模型,可以自主學習策略、拆解任務、識別並糾正錯誤,更深入地推理和解決更復雜的問題。
並且,據透露,OpenAI內部也意識到了靠擴大預訓練規模無法實現AGI,“推理時計算”也是他們尋找的新突破口。
“‘推理時計算’技術的意義被大大低估了,而且目前這項技術處於早期發展階段,未來會有巨大的提升空間。” 諾姆·布朗介紹說,當大模型“思考”更長時間時,它開始展現出一些原本需要人工添加到模型中的能力,比如嘗試不同的策略、將複雜問題拆解成數個子問題、識別並自我糾正錯誤。這也是研究人員們相信“推理時計算”是通往AGI的關鍵路徑的原因。
o3被寄予厚望
作爲推理模型的升級版,o3的多項性能表現堪稱卓越,從測試成績看稱得上是碾壓目前市面上的大模型。
在真實世界軟件任務評估(HumanEval-Verified)中,o3編程能力的準確率爲71.7%,比o1提升20%以上;在競爭性代碼編程平臺(Competition Code)上,評分爲2727分,超過了OpenAI首席科學家的2665分,而o1爲1891分。
數學推理能力方面,在美國數學奧林匹克考試(AIME)中,o3只漏掉了一個題,準確率爲96.7%,在博士級科學問題測試(GPQA Diamond)中,準確率爲87.7%,而人類專家的平均水平爲70%。在前沿數學基準測試EpochAI Frontier Math中,準確率超過o1 10倍。
最讓業界震驚的,是它在Arc AGI測試中的表現。Arc AGI是法國人工智能開發者弗朗索瓦·肖萊(François Chollet)2019年設計的,目前公認爲衡量AI系統在數學和邏輯問題水平的一種權威測試。在該項測試中,o3低算力配置下的準確率爲75.7%,高算力下的準確率爲87.5%,而人類平均水平爲85%。
這些性能表現,尤其是在Arc AGI的測試成績,表明AI在即時學習新規則和進行推理方面,已經勝過人類。
有從業者甚至表示,OpenAI o3是通往AGI(通用人工智能)的關鍵一步,或者說在通往AGI的路上已經沒有任何障礙。
狂熱的另一面
也有不少研究者和科學家冷靜看待。在o3測試中,有兩個問題引起了從業人員的關注。一是太過昂貴。Arc AGI研究人員透露,在高算力配置下,o3完成每個任務需要花費3400美元。短期內,這種高昂成本是其商業化的絆腳石。
大模型訓練是典型的“燒錢遊戲”。據透露,GPT-4的訓練成本超1億美元,而正在研發中的GPT-5,6個月的訓練僅算力成本就達5億美元。
二是o3還會犯簡單的推理錯誤。弗朗索瓦·肖萊認爲,o3能夠適應以前從未遇到過的任務,在ARC-AGI領域接近人類水平。但是,通過ARC-AGI測試拿到高分並不等同於實現AGI,“實際上,我認爲o3還不是AGI。o3在一些非常簡單的任務上仍然會失敗,這表明它與人類智能存在根本性的差異。”
弗朗索瓦·肖萊後面的這句話,也正是一些科學家所強調的。
AI機器視覺知名學者、香港大學計算與數據科學學院院長兼數據科學研究院院長馬毅說,現在的大模型只有Knowledge(知識),沒有intelligence(智能),“知識是智能活動的積分,而智能是知識的微分”。GPT-4有知識,但沒有智能;新生兒有智能,不一定有知識,但一個新生兒很可能變成下一代愛因斯坦。
一位在硅谷工作的AI工程師說,o3雖然多項性能表現卓越,但仍然只是OpenAI推理模型的第二代,不宜過分拔高。而且其測試樣本(人數)有限,不能就此得出結論說它的智慧就已經在整體上達到甚至超越人類的專家水平。
幻覺難題待解
能思考、懂推理的人工智能,會不會犯錯?
人工智能近兩年的快速發展,尤其是大模型的高速迭代,涌現了一些需要重新釐定的新問題。比如,谷歌發佈量子芯片Willow後,阿里雲創始人王堅院士就提出,特定裝置下量子計算的“計算”,與傳統計算機的“計算”,是不是同一個定義,值得探索。同樣,以OpenAI o3在編程和數學推理能力表現出的intelligence,與人類的intelligence,是不是同一個定義,也值得探討。
至今仍存在的大模型幻覺問題是一項行業難題。所謂幻覺,是指大模型或垂直模型生成的部分信息,貌似合理卻自相矛盾,一本正經卻完全錯誤。這類似於人類的說謊。在金融、醫療、公共安全等領域,如果模型生成的關鍵信息不準確,而人工在後期又不加以甄別,可能釀成嚴重後果。
OpenAI 的語音轉寫工具Whisper 最近被曝出現較大比例的幻覺現象。密歇根大學研究員發現,Whisper 每10份音頻轉錄中有8份出現幻覺;有機器學習工程師稱其分析的超100小時轉錄文件約一半出現幻覺。今年10月有媒體報道,美國很多醫生和醫療機構利用Whisper來轉錄醫生與患者的會診,比如包括明尼蘇達州的曼卡託診所和洛杉磯兒童醫院在內的超30000名臨牀醫生和40個醫療系統,使用由Nabla公司基於Whisper開發的工具,該工具已用於轉錄約700萬次醫療就診。
雖然去年5月OpenAI 就宣佈找到了防止或減少模型幻覺的辦法,也就是該公司官方論文所說的,“通過過程監督改進數學推理”,但Whisper轉錄的醫療診斷或用藥診斷,出現如此高比例的幻覺,依然令業界驚訝。
幻覺正是ChatGPT、谷歌Bard等大模型在知識領域突飛猛進,在智能方面卻存在明顯缺陷的典型表現。人類說謊,輕則報以道德訓誡,重則施以法律規制,而對付機器說謊,也必須“與人類對齊”。這是包括OpenAI在內,在通往AGI的路上必須解決的重大課題。