全世界機器人共用一個大腦,谷歌DeepMind已經完成了第一步

機器之心報道

編輯:佳琪

過去一年,生成式人工智能發展的核心關鍵詞,就是「大」。

人們逐漸接受了強化學習先驅 Rich Sutton 充分利用算力「大力出奇跡」的思潮,龐大的數據量是 AI 模型展現出驚人智慧的核心原因。數據規模越大、質量越高、標註越細,模型就能瞭解到更全面的世界知識,從而擬合出更加智能的結果。

那麼,爲什麼人工智能的進展還沒有轉化成科幻片中那種全能管家機器人呢?能清理桌子、疊衣服、做早餐的機器人在哪裡?

一個重要的原因是機器人領域很難「大力出奇跡」,生成式 AI 的文字或圖片訓練數據在網絡上就能輕鬆獲取,而機器人的訓練數據通常是由研究人員在實驗室裡根據具體的任務一個一個地創建的。這個過程往往漫長而又乏味。

如果沒有大量數據的支撐,機器人將無法脫離實驗室,無法獨立執行做早餐等任務。令人驚豔的機器人研究成果,往往也只是某一個實驗室研發出來的某一款機器人在執行某幾項任務,對於其他實驗室的機器人研究,可參考性有限。

特斯拉機器人 Optimus 在遠程操控下疊衣服。

如果有一個彙集了許多機器人經驗的「課本」,新機器人可以從中一次性學習,讓機器人共享訓練數據。這種做法是否能突破手動讓機器人執行新任務帶來的時間與精力限制?

爲了得到問題的答案,由谷歌 Deepmind 發起,來自北美、歐洲、亞洲的 34 個機器人實驗室共同啓動了 RT-X 項目。RT-X 項目的目標是彙集數據、資源和代碼,讓通用機器人走進現實。該項目的主要參與者加州大學伯克利分校的 Sergey Levine 教授和 Google DeepMind 的資深科學家 Karol Hausman 聯合撰寫了「THE GLOBAL PROJECT TO MAKE A GENERAL ROBOTIC BRAIN(打造通用機器人大腦的全球合作項目)」一文,總結了 RT-X 項目取得的進展。

RT-X 項目至今都做了哪些努力,讓我們一起來看看。

造通用機器人,要從哪方面下手?

人類擁有強大的學習能力。我們的大腦在經過一點練習後,就可以指揮四肢行動,比如拿起工具、騎自行車或上車這種動作。換句話說,也就是我們的軀體發生了一些變化,但大腦能夠理解。RT-X 的目標是讓機器人也擁有這種「思維方式」:使單個深度神經網絡能夠控制許多不同類型的機器人。這種能力稱爲「交叉體現」。

然而「交叉體現」的問題在於,經過機器人數據訓練的深度神經網絡能否「駕馭」各種各樣的機器人。一旦這些外觀、物理特性和能力截然不同的機器人能被單個神經網絡「大一統」,那麼將釋放出大型數據集對機器人學習的潛力。

RT-X 項目發佈的 Open X-Embodiment 數據集規模龐大,目前它含有 22 種機器人的近 100 萬次試驗數據,其中包括市場上常用的機器臂。像拾取和放置物體、組裝以及電纜佈線這種專項任務的數據也都包含在其中,共有約 500 種不同的操作和數千種與其他物體的互動數據。Open X-Embodiment 是目前最大的真實機器人動作開源數據集。

一個驚喜的發現是,大模型從大型數據集學習的思路也適用於機器人領域。使用相對簡單的機器學習方法,利用與當前 LLM(如 ChatGPT)相同的模型,研究者能夠根據 Open X-Embodiment 數據集訓練普遍的機器人控制算法。就像一個人可以通過大腦學習開車或騎自行車一樣,在 Open X-Embodiment 數據集上訓練的模型可以簡單地通過機器人自帶的攝像頭識別模型所控制的機器人類型。例如攝像頭識別出的是 UR10 工業臂,模型將發送適合 UR10 的命令。如果識別出的是低成本的 WidowX hobbyiest 機械臂,模型也會相應地調整指令。

谷歌基於 Open X-Embodiment 數據集訓練出來了 RT-X 模型。爲了測試「機器人大模型」的能力,參與 RT-X 項目的五個實驗室分別對其進行了測試。他們將 RT-X 的訓練結果與各自獨立開發的最佳控制系統進行了比較。每個實驗室的測試項目都涉及其機器人原本的研究任務,如拾取和移動物體、開門和通過夾子佈線等。值得注意的是,統一的「大模型」超越了各個實驗室的最佳方法,使機器人完成任務的平均成功率提高了約 50%。

更驚人的發現是,如下列動圖所示,RT-X 模型可以運用其他機器人的經驗來提高不同環境中正在被訓練的機器人的魯棒性。

在同一個實驗室中,即使機器人在執行相同的任務,環境稍微不同,它也有可能無法成功完成同一動作。怪不得馬斯克要強調在換了衣服、盒子和桌子和之後,特斯拉 Optimus 在未來肯定能學會疊衣服呢。

因此,能夠借鑑其他機器人在其他情況下的經驗有助 RT-X 模型控制的機器人應對變化和特殊情況。

搭建可以自主推理的機器人

受到以上成果的鼓舞,谷歌 DeepMind 的研究團隊繼續研究瞭如何如何將這些數據整合到一個具有更加深入的推理能力的系統中。僅從機器人數據中很難學習到複雜的語義推理。如「在罐子和橘子之間移動蘋果」這個複雜任務,需要機器人理解圖像中物體之間的語義關係、基本常識還有其他與物理能力不直接相關的符號知識等等。

爲了解決複雜語義推理的問題,研究人員決定加入另一個龐大的數據源:全網的圖像和文本數據。他們使用了一個現有的大型視覺語言模型,該模型已經精通許多需要理解自然語言和圖像之間聯繫的任務。它是一個類似 ChatGPT 或 Bard 這樣公開可用的模型。這個模型可以根據圖片輸入做出回答,能夠解決視覺問答、字幕以及其他開放式視覺理解任務之類的問題。

研究團隊發現,經過訓練,生成式 AI 模型也能輸出機器人動作以響應機器人命令(如「把香蕉放在盤子上」),機器人繼而根據命令執行動作。基於這些發現,谷歌 DeepMind 研究團隊將這種方法應用到 Open X-Embodiment 數據集中。

爲了評估從互聯網獲取的智能和來自全世界的機器人數據的結合情況,谷歌 DeepMind 用他們的移動機械臂對 RT-X 模型進行了測試。研究人員對它進行了最嚴格的通用化基準測試。這要求機器人掌握識別物體、成功操縱物體、根據複雜的文本命令、整合文本和圖像信息、進行邏輯推理等能力。這種能力正是人類成爲通才的原因之一。

研究人員進行了兩組評估。他們使用了一個不涉及谷歌的機器人、不包括多機器人數據的模型作爲基準。事實上,由於 Open X-Embodiment 數據集中有超過 10 萬次演示來自谷歌 DeepMind 的機器人,數據集中其他機器人數據是否起效,這個問題的答案仍然未知。因此,他們又嘗試了基於 Open X-Embodiment 整體數據的評估。

對谷歌機器臂而言,「將蘋果移到易拉罐和橘子之間」是最難的評估任務之一。這是一項涉及空間關係推理的任務。在「將一個物體放在寫着解爲 2+3 的紙上」這項任務中,它還需要解數學題。這些挑戰旨在測試 RT-X 模型賦予機器臂的推理以及得出結論的能力。

在這種情況下,機器臂推理能力(例如推理出 「之間 」和 「上面 」的含義)來自於視覺語言模型訓練中的全網數據,而將推理輸出應用於機器人行爲的能力(即使機器臂向正確方向移動的命令)來自 RT-X 對機器人數據的訓練。下面的視頻展示了一個評估實例,研究團隊要求機器人執行一項未包含在訓練數據中的任務。

即使沒有經過專門訓練,谷歌的機器臂也能夠遵循指令「在罐子和橘子之間移動蘋果」。這種能力是由 RT-X 實現的,這是邁向通用機器人大腦的第一步。

雖然這些任務對人類來說可能不值一提,但對通用機器人來說卻是一大難題。如果沒有具體的機器人演示數據清楚地說明「之間」、「附近」和「上面」是什麼意思,即使共享了機器人的訓練數據,基於此的系統也無法弄清楚這些命令的含義。

通過整合視覺語言模型中的全網知識,RT-X 的完整系統爲機器人研究解決了很多問題。研究團隊發現共享機器人數據的加入使谷歌機器人的泛化能力提高了三倍。這表明,Open X-Embodiment 數據集不僅有助於機器人獲得各種物理技能,還有助於更好地讓與物理動作與視覺語言模型中的語義和符號知識聯繫起來。這些聯繫使得機器人具備了一定的常識。有朝一日,機器人能夠基於這些方法理解「給我拿早餐」這種複雜和微妙的命令,併爲你端上一份熱乎乎的早飯。

RT-X 項目的下一步

RT-X 項目展示了機器人社區凝心聚力之後取得的巨大進展。得益於跨地區、跨機構的努力,谷歌 DeepMind 彙集了多樣化的機器人數據集,進行了全面的多機器人評估。此前,這對於任何單一機構都是不可能做到的事。RT-X 的發起者希望能有更多的研究人員入這項合作,分享他們的數據。他們還將開發工具、模型和基礎設施來支持具身智能研究。

就像大型語言模型已經掌握了廣泛的基於語言的任務一樣,RT-X 項目目前的進展已經提供了一種大型具身機器人模型改變機器人領域的可能性。在未來,谷歌 DeepMind 將會使用相同的基礎模型作爲許多現實中的機器人做任務的基礎。也許有一天,只通過微調,甚至只向預訓練的基礎模型輸入提示,機器人就能獲得新技能。你可以像使用 ChatGPT 一樣,無需告訴機器人如何使用裱花袋或要寫什麼字體,機器人就能在一個蛋糕上做「生日快樂」的裱花。

隨着越來越多的實驗室參與 RT-X 項目,谷歌 DeepMind 希望進一步推進單個神經網絡控制多臺機器人的可能。未來他們可能將添加生成的各種模擬數據,加入更多種類的機器人(例如有不同數量的手臂或手指的機器人),引入不同的傳感器套件(如深度相機和觸覺傳感器),結合操縱和運動行爲等。

也許在未來,通用化的機器人大腦可以驅動任何機器人,全球所有機器人都可以從共享的數據中受益。

https://twitter.com/dotey/status/1746414853311377455

https://spectrum.ieee.org/global-robotic-brain

https://mp.weixin.qq.com/s/k3iXMZtdtzoP8ZuA5_Htww