伯克利開源大型機器人操控基準,面對複雜自主操控任務不再犯難

機器之心專欄

機器之心編輯部

隨着人工智能和機器人技術的迅速發展,功能操控(Functional Manipulation)在機器人學中的重要性愈加突出。傳統的基準測試已無法滿足目前機器人對複雜操控任務的需求,呼籲新的操控基準(Functional Manipulation Benchmark)出現。

概述

機器人操控面臨兩個主要挑戰:機器人如何智能地處理複雜的接觸動力學以及如何應對環境和物體的多樣性。針對這些挑戰,機器人學習技術被視爲關鍵的解決手段。因此,該領域需要一個全面易得的框架,提供有挑戰性的實際任務、高質量數據、易於複製的設置,集合了基線結果的相關方法,基於該框架,研究人員能夠對所提出任務的實驗發現進行深入分析。

加州大學伯克利分校智能機器人實驗室(RAIL)的研究團隊提出瞭如上所述的現實世界基準,稱爲 FMB(Functional Manipulation Benchmark for Generalizable Robotic Learning)。

FMB 具有以下特點:

物體和任務

FMB 中的任務大致分爲兩類:單物體多步驟操控任務和多物體多步驟操控任務。這些任務旨在測試機器人的基本技能,如抓取、重新定位和裝配等,這些都是完成整個任務所必需的技能。FMB 中的任務要求機器人不僅能完成單一的操控技能,還要求機器人能夠將這些技能組合起來,完成更爲複雜的多步驟任務。

FMB 的任務設計靈活多變,研究人員可以根據需要選擇專注於單一技能,深入研究機器人的操控能力,也可以研究完整的多步驟任務,這需要機器人進行長期規劃並具備從失敗中恢復的能力。由於涉及選擇合適的物體並推理操控物體的順序,更爲複雜的多步驟任務要求機器人能夠做出複雜的實時決策。

大型數據集

在機器人學習的過程中,數據的作用不可小覷。爲了使機器人更好地理解和掌握複雜的任務,研究團隊收集了一個涵蓋上述任務的大規模專家人類示範數據集,包含超過兩萬個操作軌跡。研究團隊採用了四個不同的攝像機記錄這些示範數據,其中兩個攝像機安裝在機器人的腕部,另外兩個提供全局視角。這些攝像機捕捉了對於機器人學習解決任務至關重要的 RGB 彩色圖像信息、深度信息等數據。

此外,數據集還記錄了機器人末端執行器的力 / 扭矩信息,這對於像裝配這樣需要接觸大量物體的的任務非常重要。通過這些豐富的數據,機器人能夠深入理解任務的每個細節,更加精確地模仿人類的操作技巧。正是由於數據的深度和廣度,爲機器人學習提供了堅實的基礎。這使得機器人在執行復雜任務時,能夠更加人性化和更靈巧地對任務作出響應。

模仿學習基線

基線策略的架構圖。

基於 Transformer 和 ResNet 的兩種模型都使用了共享權重的 ResNet 編碼器對每個圖像視圖進行編碼,然後與本體感知信息和可選的物體和相應的機器人技能編碼特徵結合,以預測 7 自由度的動作。

FMB 的實驗部分對模仿學習系統的性能進行了一系列測試,比較了不同的學習方法,探究了不同輸入模式和設計決策的影響。實驗發現,使用深度信息有助於提高抓取策略的效果,力 / 扭矩信息對於裝配任務非常重要。對於多步驟任務,傳統的 ResNet、Transformer 和 Diffusion 方法均未能奏效,但該論文中提出的分級控制 (hierarchical control) 方法顯示出了潛力。

抓取任務

實驗結果顯示,納入深度信息的 ResNet 策略在抓取任務中的性能一致優於僅使用 RGB 信息的策略。通過數據削減研究,研究團隊探究了不同數量的訓練數據對抓取任務性能的影響。結果顯示,納入深度信息的 ResNet 策略在處理已見物體時的性能將隨着訓練數據量的增加而提升。值得注意的是,該策略對未見過的物體表現出了與已見物體相近的性能,這表明訓練對象的多樣性極大地促進了機器人的泛化能力。

裝配任務

在裝配任務中,力 / 扭矩信息的重要性得到了證實。力 / 扭矩信息對於機器人採取的策略判斷物體是否已經接觸到目標表面,並有效進行搜索等行爲非常重要。

然而,當策略在所有物體上進行訓練時,機器人並不總是能夠成功地完成裝配任務。這是因爲策略需要首先判斷應將物體裝配到哪個孔中,然後再生成相應的動作,這大大增加了任務的複雜性。爲了解決這個問題,研究團隊在策略中添加了一個選取物體機制,幫助策略確定需要裝配的物體的形狀,從而專注於生成正確的裝配動作。

多步驟任務

FMB 的框架包含了兩項複雜任務。這些複雜任務要求機器人能夠像人類一樣連續完成多個步驟。此前的方法是讓機器人學習整個過程,但這種方法容易因爲單一環節的錯誤而不斷累計誤差,最後導致整個任務失敗。無論是在單物體還是多物體操控任務中,這種方法的成功率均爲 0/10。

針對累積誤差問題,研究團隊採用了分層控制策略。分層策略通過將任務分解成若干小塊,每完成一塊便相當於通過一個決策點,即使出現錯誤也能迅速糾正,避免影響後續環節。例如,如果機器人在抓取過程中未能穩固抓住物體,它會持續嘗試直至成功。

研究團隊測試了兩種分層方法,第一種方法爲單一策略提供指示任務類型的有效向量,而第二種方法則是針對每個操控技能單獨訓練不同的策略,均採用了操作員的指令作爲上層策略,在測試中,研究團隊發現這兩種方法均表現優異。

測試結果顯示了分層方法在處理複雜機器人任務中的有效性,併爲未來研究提供了新的研究方向。

如上圖所示,機器人在學習後能夠自主進行功能操控。

總的來說,以上實驗展示了研究團隊在機器人學習領域的技術創新,也驗證了 FMB 是適合開發先進機器人學習方法的基準。研究團隊研究期待未來的研究可以在 FMB 基礎上進一步推動機器人學習的邊界。