用AI自動設計智能體,數學提分25.9%,遠超手工設計

機器之心報道

編輯:陳陳、小舟

基礎模型 (FM) 如 GPT 和 Claude ,正在成爲通用智能體的強有力支持,被越來越多的用於多種推理和規劃任務。

然而,在解決問題時,需要的智能體通常是具有多個組件的複合智能體系統,而不是單片模型查詢 。此外,爲了使智能體能夠解決複雜的現實世界任務,它們通常需要訪問外部工具,例如搜索引擎、代碼執行和數據庫查詢。

因此,人們提出了許多有效的智能體系統構建塊,例如思維鏈規劃和推理、記憶結構、工具使用和自我反思。儘管這些智能體已經在各種應用中取得了顯著的成功,但開發這些構建塊並將它們組合成複雜的智能體系統通常需要特定領域的手動調整以及研究人員和工程師的大量努力。

然而,機器學習的歷史告訴我們,手工設計的解決方案最終會被模型學習到的解決方案所取代。

本文,來自不列顛哥倫比亞大學、非營利人工智能研究機構 Vector Institute 等的研究者制定了一個新的研究領域,即智能體系統的自動化設計(ADAS,Automated Design of Agentic Systems),並提出了一種簡單但有效的 ADAS 算法,名爲元智能體搜索(Meta Agent Search),以證明智能體可以通過代碼編程來發明新穎而強大的智能體設計。

該研究旨在自動創建強大的智能體系統設計,包括開發新的構建塊並以新的方式組合它們。

實驗表明,基於 ADAS 所發現的智能體的性能大大優於最先進的手工設計的基線。例如,本文設計的智能體在 DROP 的閱讀理解任務中將 F1 分數提高了 13.6/100(與基線比),在 MGSM 的數學任務中將準確率提高了 14.4%。此外,在跨域遷移後,它們在 GSM8K 和 GSM-Hard 數學任務上的準確率分別比基線提高了 25.9% 和 13.2%。

與手工設計的解決方案相比,本文算法表現出色,這說明 ADAS 在自動化智能體系統設計方面的潛力。此外,實驗表明,所發現的智能體不僅在跨相似領域遷移時表現良好,而且在跨不同領域遷移時也表現出色,例如從數學到閱讀理解。

新研究領域:智能體系統的自動化設計(ADAS)

該研究提出了一個新的研究領域 —— 智能體系統的自動化設計(Automated Design of Agentic Systems,ADAS),並描述了 ADAS 算法的三個關鍵組成部分——搜索空間、搜索算法、評估函數。ADAS使用搜索算法跨搜索空間來發現智能體系統。

搜索空間:搜索空間定義了哪些智能體系統可以在 ADAS 中被表徵並被發現。例如,像 PromptBreeder (Fernando et al., 2024) 這樣的工作僅改變智能體的文本提示,而其他組件(例如控制流)保持不變。因此,在搜索空間中,無法表徵具有與預定義控制流不同控制流的智能體。

搜索算法:搜索算法定義了 ADAS 算法如何探索搜索空間。由於搜索空間通常非常大甚至無界,因此應考慮探索與利用的權衡(Sutton & Barto,2018)。理想情況下,該算法既可以快速發現高性能智能體系統,又可以避免陷入局部最優。現有方法包括使用強化學習(Zhuge et al., 2024)或迭代生成新解決方案的 FM(Fernando et al., 2024)作爲搜索算法。

評估函數:根據 ADAS 算法的應用,可能需要考慮不同的優化目標,例如智能體的性能、成本、延遲或安全性。評估函數定義如何評估候選智能體的這些指標。例如,爲了評估智能體在未見過的數據上的表現,一種簡單的方法是計算任務驗證數據的準確率。

該研究提出的簡單但有效的 ADAS 算法——元智能體搜索的核心概念是指示元智能體迭代地創建有趣的新智能體,評估它們,將它們添加到智能體存儲庫中,並使用此存儲庫幫助元智能體在後續迭代中創建更有趣的新智能體。與現有的利用人類興趣概念的開放式算法類似,該研究鼓勵元智能體探索有趣的、有價值的智能體。

元智能體搜索的核心思想是採用 FM作爲搜索算法,基於不斷增長的智能體存儲庫來迭代編程有趣的新智能體。該研究爲元智能體定義了一個簡單的框架(100 行代碼以內),爲其提供了一組基本功能,例如查詢 FM 或格式化提示。

因此,元智能體只需要編寫一個「前向」函數來定義一個新的智能體系統,類似於 FunSearch 中的做法(Romera-Paredes et al., 2024)。該函數接收任務信息並輸出智能體對任務的響應。

如圖 1 所示,元智能體搜索的核心思想是讓元智能體在代碼中迭代地編程新的智能體。下面顯示了元智能體程序新智能體程序的主要提示,其中提示中的變量高亮顯示。

實驗

所有實驗結果表明本文發現的智能體大大優於基線最先進的手工設計的智能體。值得注意的是,該研究發現的智能體在 DROP 閱讀理解任務上比基線提高了 13.6/100(F1 分數),在 MGSM 數學任務上比基線提高了 14.4%(準確率)。此外,研究者發現的智能體在從 GPT-3.5 遷移到 GPT-4 後,在 ARC 任務上的表現比基線提高了 14%(準確率),在從 MGSM 數學任務遷移到 GSM8K 和 GSM-Hard 中的 held-out 數學任務後,準確率分別提高了 25.9% 和 13.2%。

案例研究:ARC 挑戰

如圖 3a 所示,元智能體搜索可以有效且逐步地發現性能優於最新手工設計的智能體。文本框中突出顯示了重要的突破。

此外,圖 3b 顯示了發現最好的智能體,其中採用了複雜的反饋機制來更有效地細化答案。仔細觀察搜索進度就會發現,這種複雜的反饋機制並不是突然出現的。

推理和問題 - 解決域

跨多個域的結果表明,元智能體搜索可以發現表現優於 SOTA 手工設計的智能體(表 1)。

泛化性以及可遷移性

研究者進一步展示了所發現智能體的可遷移性和可泛化性。

如表 2 所示,研究者觀察到搜索到的智能體(searched agent)始終優於手工設計的智能體,並且差距很大。值得注意的是,研究者發現 Anthropic 最強大的模型 Claude-Sonnet 在所有測試模型中表現最佳,使基於該模型的智能體在 ARC 上實現了近 50% 的準確率。

如表 3 所示,研究者觀察到元智能體搜索的性能與基線相比具有類似的優勢。值得注意的是,與基線相比,本文的智能體在 GSM8K 和 GSM-Hard 上的準確率分別提高了 25.9% 和 13.2%。

更令人驚訝的是,研究者觀察到在數學領域發現的智能體可以遷移到到非數學領域(表 4)。