谷歌稱Gemini AI正在讓機器人變得更加智能
鞭牛士報道,7月12日消息,據外電報道,谷歌正在使用 Gemini AI 訓練其機器人,以便它們能夠更好地導航和完成任務。
DeepMind 機器人團隊在一篇新研究論文中解釋瞭如何使用Gemini 1.5 Pro的長上下文窗口(決定 AI 模型可以處理多少信息)讓用戶更輕鬆地使用自然語言指令與其RT-2 機器人進行交互。
這項技術的工作原理是拍攝指定區域(例如家庭或辦公室空間)的視頻,研究人員使用 Gemini 1.5 Pro 讓機器人觀看視頻以瞭解環境。
然後,機器人可以根據觀察到的情況,使用口頭和/或圖像輸出執行命令 - 例如在向用戶展示手機並詢問「我在哪裡可以給它充電?」之後,引導用戶到電源插座。
DeepMind 表示,其 Gemini 驅動的機器人在 9,000 多平方英尺的操作區域內對 50 多條用戶指令的成功率達到 90%。
研究人員還發現初步證據,表明 Gemini 1.5 Pro 使其機器人能夠規劃如何執行除導航之外的指令。
例如,當辦公桌上有很多可樂罐的用戶詢問機器人是否有他們最喜歡的飲料時,該團隊表示 Gemini知道機器人應該導航到冰箱,檢查是否有可樂,然後返回給用戶報告結果。
DeepMind 表示計劃進一步調查這些結果。
谷歌提供的視頻演示令人印象深刻,儘管根據研究報告,機器人確認每個請求後明顯的切換掩蓋了處理這些指令需要 10-30 秒的時間。我們可能還需要一段時間才能與更先進的環境地圖機器人共享我們的家園,但至少這些機器人可能能夠找到我們丟失的鑰匙或錢包。