LLM羣體智能崛起,數學性能暴增11.6%!谷歌DeepMind四大機構聯手新作
新智元報道
編輯:桃子
【新智元導讀】多個LLM聯合,可以邁向更強大系統!最新研究發現,GPT-4能夠提升同伴的性能,能夠讓數學能力暴漲11.6%。
AI如何成爲「更強的AI」?
最關鍵還是,得學會「借力」。
來自蒙特利爾大學、劍橋、普林斯頓、谷歌DeepMind四大機構研究人員聯手,竟發現:
論文地址:https://arxiv.org/pdf/2405.12205
在這個過程中,GPT-4可以始終如一地,標記數學問題所需的解決技能。
當LLM獲得了由GPT-4生成的技能標籤時,它們在解決相應的數學問題時,就會得到相應地表現得更好。
有網友做了一個精闢的總結,這便是「羣體智能」。
AI元認知,數學最考驗
元認知,原本是指,人類對自己思維、推理過程的直觀認識。
那麼,大模型也具備「元認知」的能力嗎?
研究人員對此,提出了一種假設,並設想是否可以通過知識引導,進一步提高LLM的能力。
其實,此前的研究已經表明,大模型表現出一些類人的特徵,比如通過CoT一步一步推理。
而且,也有一些研究稱,LLM具備了元認知能力。
比如,這篇來自谷歌、UCSD等機構2月論文提出了Ask-LLM,並稱想要破譯LLM元認知,最直接方法就是——問!
論文地址:https://arxiv.org/pdf/2402.09668
在最新研究中,作者將重點放在了AI元認知,在解決數學問題時,所應用的技能。
因爲數學領域中,覆蓋了人類豐富的技能目錄,從簡單的(變量運算、求解方程、掌握函數的概念),到複雜的(定理和證明)。
自動化技能發現
如下圖所示,研究人員描述了,讓GPT-4根據數學問題,所需的特定技能對數學問題進行分類的自動化過程。
這裡一共劃分爲兩個階段:
首先,創建技能示例倉庫。
功能強大的LLM A會用相應地技能,標記每個問題,如下圖2(左)中,提供的提示中詳細介紹的那樣。
接下來,LLM A要求將類似的細粒度技能,組合成廣泛的技能集羣,代表着複雜的技能。
這大大減少了,第一階段的獨特技能數量,如圖2(中)描述的提示。
然後,大模型被要求,將訓練集中的所有示例,重新分類爲一種後聚類技能。
第二階段,是推理。
在使用LLM B(其中B可能與A不同),對測試問題進行推理期間,要求LLM B使用技能示例倉庫中,一項技能來標記測試問題。
接下來,研究人員從倉庫中,獲取具有相同技能標籤的範例,並向LLM B提供主題上下文示例,以幫其解決測試問題。
舉個例子,對於MATH數據集,第一階段識別了約5000個技能,第二階段將其減少到117個粗粒度技能。
代表粗粒度技能的隨機子集例子被保留作爲其技能示例。
針對不同數據集,所列出的技能表,這些技能名稱由GPT-4-0613提供。
下圖中,展現了一些在數學領域中的技能。
實驗結果
接下來,研究人員描述一種LLM在提取元認知知識的程序,這種只是以數學問題技能標註形式呈現。
結果表明,技能知識顯著改善了不同數據集上,基於文本和程序的提示性能。
此外,這些技能表現出強大的可遷移性,提升其他數學數據集和LLM的數學推理能力。
具體結果如下所示。
論文中,主要研究了兩種主要類型的上下文提示方法,以增強法學碩士的數學推理能力。
首先是,基於文本的提示,利用文本示例來演示解決問題的步驟,思想鏈(CoT)就是一個很好的例子。
其次是,程序輔助提示,使用程序來展示推理步驟,如程序輔助語言模 型 (PAL) 中所示。
表2展示了,MATH數據集上,基於文本的提示結果。
研究人員基於技能的方法採用CoT提示,在MATH數據集中的所有話題中,表現出優於所有其他方法的性能。
研究者利用技能示例庫,解決GSM8K數據集中的測試集問題。
結果如表3所示,基於技能的方法在GSM8K數據集上的表現,優於CoT和隨機基準方法,並強調了準確技能分配、相關上下文示例在有效問題解決中重要性。
此外,基於技能方法與自洽性,帶來了更好的性能。
對於SC實驗,研究人員從LLM中採樣5個推理鏈,並選擇最頻繁的答案。
爲了進一步強調所提出方法的有效性,他們將其與Retrieval-RSD方法進行比較,後者也是一種用於少樣本提示的相關上下文示例選擇方法。
MATH數據集的結果,如表2所示。
對於此分析,研究人員提出的方法採用簡單的思想鏈 (CoT) 方法,其中上下文示例源自技能示例倉庫。
新方法在性能上取得了顯著的進步,超出了標準CoT 11.6%,令人印象深刻。
另外,新方法也要比複雜CoT好3.5%,比基於主題方法高3.5%。
這些結果,凸顯了方法的有效性,特別是細粒度技能標籤。
技能示例,向其他模型的遷移結果如下所示。
所有實驗都使用MATH數據集在Mixtral 8 × 7B模型上進行,與標準思維鏈(CoT)、使用基於主題示例的CoT、使用基於技能示例的CoT、以及使用主題和技能示例的CoT加自洽性(maj@4)進行比較。
新技能的方法表現出的增強性能表明,技能可以有效地從GPT-4遷移到另一個模型。
表7說明了,基於技能的方法使LLM能夠有效應用相關技能的實例。
紅色加亮的文本,顯示了基於主題的基線在概念上的錯誤,而藍色加亮的文本,則展示了嫺熟而準確的技能應用。
表6呈現了,新論文所提出的方法,在4個案例中實現了最高準確率。
總之,作者提出一個LLM提取元認知知識框架,其形式是根據解決問題所需的概念,對數學數據集中的問題進行分類的技能。
目前,新框架依賴於GPT-4等高級模型的可用性。
然而,技能發現過程改進了GPT-4的情境學習,這表明使用技能來微調GPT-4可能會提高其能力。
參考資料:
https://x.com/emollick/status/1832583991498608918