微軟新的 AI 代理可以控制軟件和機器人
週三,微軟研究院推出了 Magma,這是一個集成的 AI 基礎模型,結合了視覺和語言處理能力,可以控制軟件界面和機器人系統。如果這些結果在微軟內部測試之外依然有效,這可能標誌着一個支持多模態的通用 AI 在現實和數字空間中進行交互操作的重要進展。
微軟聲稱,Magma 是第一個不僅能處理多模態數據 (如文本、圖像和視頻),還能對其進行原生操作的 AI 模型——無論是導航用戶界面還是操控物理對象。該項目是微軟、KAIST、馬里蘭大學、威斯康星麥迪遜大學和華盛頓大學研究人員合作的成果。
我們已經見過其他基於大語言模型的機器人項目,如 Google 的 PALM-E 和 RT-2,或微軟的 ChatGPT for Robotics,它們都將大語言模型用作接口。然而,與許多需要單獨模型來進行感知和控制的傳統多模態 AI 系統不同,Magma 將這些能力整合到一個基礎模型中。
微軟將 Magma 定位爲朝着代理式 AI 邁出的一步,這意味着系統可以代表人類自主制定計劃並執行多步驟任務,而不僅僅是回答關於所見內容的問題。
微軟在其研究論文中寫道:"給定一個描述性目標,Magma 能夠制定計劃並執行行動來實現它。通過有效地從免費獲取的視覺和語言數據中轉移知識,Magma 將語言、空間和時間智能結合起來,以應對複雜的任務和場景。"
微軟並不是唯一追求代理式 AI 的公司。OpenAI 一直在通過 Operator 等項目實驗 AI 代理,該項目可以在網頁瀏覽器中執行 UI 任務,而 Google 則通過 Gemini 2.0 探索多個代理項目。
空間智能
雖然 Magma 建立在基於 Transformer 的大語言模型技術之上,將訓練 Token 輸入神經網絡,但它與傳統的視覺語言模型 (如 GPT-4V) 不同,它超越了所謂的"語言智能",還包括"空間智能" (規劃和行動執行)。通過對圖像、視頻、機器人數據和 UI 交互的混合訓練,微軟聲稱 Magma 是一個真正的多模態代理,而不僅僅是一個感知模型。
Magma 模型引入了兩個技術組件:Set-of-Mark,通過爲交互元素(如 UI 中的可點擊按鈕或機器人工作空間中的可抓取物體)分配數字標籤來識別可在環境中操作的對象;以及 Trace-of-Mark,用於從視頻數據中學習移動模式。微軟表示,這些功能使模型能夠完成導航用戶界面或指導機器人手臂抓取物體等任務。
微軟 Magma 研究員 Jianwei Yang 在 Hacker News 的評論中解釋說,"Magma"代表"M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch)",這是因爲有人指出"Magma"已經被一個現有的矩陣代數庫使用,可能會在技術討論中造成混淆。
相比之前模型的改進
在 Magma 的介紹中,微軟聲稱 Magma-8B 在各項基準測試中表現出色,在 UI 導航和機器人操作任務中展現了強大的結果。
例如,它在 VQAv2 視覺問答基準測試中得分爲 80.0,高於 GPT-4V 的 77.2,但低於 LLaVA-Next 的 81.8。它在 POPE 測試中的得分爲 87.4,領先所有對比模型。在機器人操作方面,Magma 據報道在多個機器人操作任務中表現優於開源視覺語言動作模型 OpenVLA。
一如既往,我們對 AI 基準測試持謹慎態度,因爲許多測試尚未經過科學驗證,無法證明其能夠測量 AI 模型的有用特性。一旦其他研究人員能夠訪問公開發布的代碼,對微軟的基準測試結果進行外部驗證就成爲可能。
與所有 AI 模型一樣,Magma 並非完美。根據微軟的文檔,它在需要隨時間推移進行多個步驟的複雜決策方面仍然面臨技術限制。該公司表示,將通過持續研究來改進這些能力。
Yang 表示,微軟將在下週在 GitHub 上發佈 Magma 的訓練和推理代碼,允許外部研究人員在此基礎上繼續研究。如果 Magma 實現其承諾,它可能會推動微軟的 AI 助手超越有限的文本交互,使其能夠自主操作軟件並通過機器人執行現實世界的任務。
Magma 也表明 AI 文化可以如何快速變化。就在幾年前,這種代理式的討論還讓許多人感到恐懼,他們擔心這可能導致 AI 接管世界。雖然一些人仍然擔心這種結果,但在 2025 年,AI 代理已成爲主流 AI 研究的常見話題,而且這種研究的進行通常不會引發暫停所有 AI 開發的呼聲。