MIT研究新型神經網絡,在複雜環境中執行導航任務

編輯/凱霞

神經網絡可以學習解決各種問題,從識別照片中的貓到駕駛自動駕駛汽車。但這些強大的模式識別算法是否真正理解它們正在執行的任務仍然是一個懸而未決的問題。

例如,一個負責讓自動駕駛汽車保持在車道上的神經網絡可能會通過觀察路邊的灌木叢來學習如何做到這一點,而不是學習檢測車道和關注道路的地平線。

近日,麻省理工學院的研究人員表明,當某種特定的神經網絡被訓練執行導航任務時,其能夠理解該項任務真正的因果結構。由於這些網絡可以直接從視覺數據中理解任務,因此在複雜環境(例如樹木茂密的位置或快速變化的天氣條件)中導航時,它們應該比其他神經網絡更有效。

未來,這項工作可以提高執行高風險任務的機器學習代理的可靠性和可信度。如在繁忙高速公路上駕駛自動駕駛汽車。

研究成果以「Causal Navigation by Continuous-time Neural Networks」爲題發表在預印本平臺 arXiv 上。該研究將於今年 12 月在 「2021 年神經信息處理系統會議 (NeurIPS) 」上發表。

「因爲這些機器學習系統能夠以因果方式進行推理,我們可以知道並指出它們如何運作和做出決策的。這對於安全關鍵型應用至關重要,」共同主要作者、計算機科學與人工智能實驗室 (CSAIL) 的博士後 Ramin Hasani 說。

因果學習模型 主要方法是圖形方法,它試圖將因果關係建模爲有向圖。對時間連續過程進行因果建模的一種方法是學習常微分方程 (ODE) 。在該研究中,描述了一類連續模型,它能夠解釋干預並因此從數據中捕獲因果結構。

連續時間模型(Continuous-time Models)與離散化深度模型相比,連續時間(CT)模型顯示出廣泛的優勢。它們可以通過高級 ODE 求解器實現的連續向量場執行自適應計算。它們在建模時間序列數據方面很強,並實現了內存和參數效率。

在這項工作中,研究人員證明了 CT 網絡的一個重要屬性:表明神經 ODE 的雙線性近似可以產生富有表現力的因果模型。

連續時間網絡是一類深度學習模型,其隱藏狀態由連續 ODE 表示。

視覺導航 視覺導航認知映射和規劃通過構建環境地圖來解決學習從視覺輸入流中導航的問題,並計劃代理的行動以實現給定的目標。用於學習駕駛上下文的視覺導航已經廣泛研究了因果混淆問題,以及模仿學習問題的泛化,通過使用模塊從像素輸入中提取有用的先驗。這些方法可以從該研究中設計的基於液體時間常數網絡 (liquid time-constant networks,LTC)的網絡中受益。

一個引人注目的結果

神經網絡是一種重要的機器學習技術,其中計算機通過分析許多訓練示例,通過反覆試驗來學習完成任務。而「液體」神經網絡會改變它們的基本方程,以不斷適應新的輸入。

這項新研究借鑑了先前的工作,其中 Hasani 和其他人展示了一種受大腦啓發的深度學習系統,稱爲神經迴路策略 (NCP),可以將感知模塊中的數據轉換爲轉向命令,僅包含 19 個神經元,比現有最好模型要小好幾個數量級,能夠自主控制自動駕駛車輛。

圖示:來自原始視覺輸入的因果導航。(來源:論文)

研究人員觀察到,執行車道保持任務的 NCP 在做出駕駛決定時將注意力集中在道路的地平線和邊界上,就像人類駕駛汽車時一樣。他們研究的其他神經網絡並不總是專注於道路。

「這是一個很酷的觀察,但我們沒有對其進行量化。因此,我們想找出這些網絡爲何以及如何能夠捕獲數據的真正因果關係的數學原理,」Hasani 說。

研究人員發現,當 NCP 被訓練完成一項任務時,網絡學習與環境交互並解釋干預。本質上,網絡識別其輸出是否因某種干預而改變,然後將因果關係聯繫在一起。

在訓練期間,網絡向前運行以生成輸出,然後向後運行以糾正錯誤。研究人員觀察到,NCP 在前向模式和後向模式期間關聯因果關係,這使網絡能夠非常關注任務的真實因果結構。

Hasani 和他的同事不需要對系統施加任何額外的限制,也不需要爲 NCP 執行任何特殊設置來了解這種因果關係。

「因果關係對於飛行等安全關鍵應用的表徵尤爲重要,」Rus 說。「我們的工作證明了用於飛行決策的神經迴路策略的因果關係特性,包括在具有密集障礙物的環境中飛行,如森林和編隊飛行。」

NCP 在不同環境下執行導航任務

他們通過一系列模擬測試 NCP,其中自主無人機執行導航任務。每架無人機都使用來自單個攝像頭的輸入進行導航。無人機的任務是前往目標物體、追逐移動目標或在不同環境(包括紅杉林和社區)中跟蹤一系列標記。他們還在不同的天氣條件下旅行,如晴朗的天空、大雨和大霧。

研究人員設計了具有不同記憶範圍的逼真視覺導航任務,包括 (1) 導航到靜態目標,(2) 追逐移動目標,以及 (3) 使用引導標記「徒步旅行」(hiking)。

圖示:視覺無人機導航任務。(來源:論文)

研究人員選擇一組基線模型評估 NCP 網絡。包括 ODERNNs、長短期記憶網絡 (LSTMs) 和 CT-GRU 網絡。

使用遮擋導航到靜態目標 研究人員觀察到 NCP 已經學會了注意其視野內的靜態目標以做出未來的決定。與 CT 模型相比,LSTM 代理對光照條件敏感。NCP 是唯一可以直接從視覺數據中捕獲任務因果結構的模型。

圖示:在閉環環境中導航到靜態目標。(來源:論文)

追逐移動目標 並非所有模型都能在干預發揮重要作用的閉環環境中成功完成任務。NCP 完成任務的成功率爲 78%,而 LSTM 爲 66%,ODE-RNN 爲 52%,CT-GRU 爲 38%。相比之下,NCP 已經學會了關注目標,並在它們在環境中移動時跟隨它們。

圖示:在閉環環境中追逐移動目標。NCP 是唯一可以直接從視覺數據中捕獲任務因果結構的模型。(來源:論文)

在環境中「徒步旅行」 在此任務中,無人機跟隨放置在環境中障礙物表面的多個目標標記。這個任務比之前的任務複雜得多。

研究人員觀察到大多數代理在學習過程中學習了合理程度的驗證損失。即使是 ODE-RNN 在被動設置中也實現了出色的性能。但是,在環境中部署時,除了 NCP 之外的任何模型都無法在 50 次運行中完全執行任務。由於其因果結構,NCP 可以成功執行 30%。

「我們觀察到,NCP 是唯一一個在完成導航任務的同時,在不同環境中關注感興趣對象的網絡,無論你在哪裡測試,以及在不同的照明或環境條件下。這是唯一可以隨意執行此操作並實際學習我們希望系統學習的行爲的系統,」Hasani 說。

「一旦系統瞭解了它實際應該做什麼,它就可以在它從未經歷過的新場景和環境條件下表現良好。這是當前非因果機器學習系統的一大挑戰。我們相信這些結果非常令人興奮,因爲它們展示瞭如何從神經網絡的選擇中產生因果關係,」他說。

未來,研究人員希望探索使用 NCP 來構建更大的系統。將數千或數百萬個網絡放在一起,可以使他們處理更復雜的任務。

論文鏈接:https://arxiv.org/abs/2106.08314

參考內容:https://news.mit.edu/2021/cause-effect-neural-networks-1014

https://www.sxsanjin.com/2021/10/14/these-neural-networks-know-what-theyre-doing/