可以互相交談的人工智能來了

僅憑口頭或書面指令,人類就能執行新任務,還可以通過描述,使他人能夠重複執行該任務。這項能力是人類溝通的基石,但對人工智能仍是一個挑戰。

日內瓦大學(UNIGE)的一個團隊成功地模擬了一個能夠進行這種認知能力的人工神經網絡。在學習和執行一系列基本任務之後,這個AI能夠向一個“姐妹”AI提供它們的語言描述,讓後者執行這些任務。這項成果尤其對機器人學領域具有重要意義,現已發表在《自然-神經科學》雜誌上。

▷Riveland, Reidar, and Alexandre Pouget. "Natural language instructions induce compositional generalization in networks of neurons." Nature Neuroscience (2024): 1-12.

01 遵循指令與下達指令

無需事先訓練,僅基於口頭或書面指令執行新任務,這是人類獨有的能力。更重要的是,一旦我們學會了任務,我們也能夠描述它,以便另一個人複製。這種雙重能力區分了我們和其他物種:其他物種爲了學習新任務,需要無數次的嘗試,需伴隨着正面或負面的強化信號,且無法將知識其傳達給同類。

人工智能(AI)的一個子領域——自然語言處理——旨在複製這種人類的能力,讓機器能夠理解和響應語音或文本數據。這種技術基於人工神經網絡,靈感來自於我們的生物神經元以及它們在大腦中相互傳遞電信號的方式。然而,現在還沒有神經計算能實現上述認知壯舉。目前,使用AI的對話代理能夠整合語言信息來生成文本或圖像。但據我們所知,它們還不能將口頭或書面指令轉化爲感覺運動行爲,更不用說將其解釋給另一個人工智能以便它能夠複製。

02 模擬語言交流的人工智能

該研究成功開發了一個具有這種雙重能力的人工神經網絡模型。研究人員從一個現有的人工神經元模型S-Bert開始,它有3億個神經元,並且已經預訓練以理解語言。研究人員將其‘連接’到另一個更簡單的幾千個神經元的網絡上”。

在實驗的第一階段,神經科學家們訓練這個網絡來模擬韋尼克區——大腦中使我們能夠感知和解釋語言的區域。在第二階段,網絡被訓練來複制布洛卡區,該區域在韋尼克區的影響下,負責單詞產生和發音。整個過程都可在筆記本電腦上完成。接着,研究人員向AI傳遞英文指令,例如:指向感知到的刺激的位置——左邊或右邊;在刺激的相反方向做出反應;或者更復雜的,從兩個視覺刺激中選擇對比度略有差異的一個,指出更亮的一個。

然後,科學家們評估了模型的結果。該模型模擬了特定條件下的指向或移動,一旦學會這些任務,網絡就能夠將它們描述給第二個網絡——第一個網絡的副本——以便它能夠複製它們。這是第一次兩個AI能夠以純粹的語言方式相互交流,儘管該模型仍然需要事先訓練。

▷圖1.實驗任務和模型輸入輸出示例圖。圖源:論文。

該研究訓練遞歸神經網絡(RNNs)模型執行一系列心理物理任務,利用預訓練語言模型處理每個任務嵌入的自然語言指令。研究中表現最好的模型可以利用這些嵌入來進行全新的模型,平均正確率達到83%。通過利用指令嵌入和任務表示的共享組合結構,模型能對練習過任務和新穎指令之間關係進行推斷,從而可以很好地推斷出未見任務所需的感覺運動轉換。該研究還構建了一個人工神經網絡,可以僅基於其觀察到的感覺運動來爲任務提供語言描述。

03 實驗意義

該模型對大腦區域中整合語言信息以控制感覺運動區域的神經表徵做出了幾個預測。首先,模型的層次結構表明,當人類必須根據指令泛化一組相關任務時,指令的語義表徵有層次結構,生物大腦也有感覺運動區域。

該模型指出,語言區域中等效任務相關結構的出現對於人類按指令行動至關重要。該研究還預測,參與實施感覺運動映射的個體單元應該根據輸入指令的語義在逐次試驗的基礎上進行調整,並且未能以預期方式調整會導致泛化性能差。這一預測在解釋人類的如何執行多步驟任務時可能特別有用。

最後,當模型語言描述包含基於任務集的感覺運動需求時,模型的性能有所提升,該研究的作者猜測在學習過程中,模型語言處理層次的最高級別也受到伴隨語言輸入的具身過程的影響,例如運動規劃或可供性評估。

語言使用者能夠以更靈活的方式組織任務中的多個子組件,在更廣泛的情境中重新組合,並傳播其中蘊含的知識,這是人類得以成爲萬物之靈的關鍵。開發可解釋的人工神經網絡既能理解指令以指導特定感覺運動反應,也能將感覺運動學習的成果作爲可理解的語言指令進行交流。該模型的藉此幫助我們解釋語言是如何在編碼和在神經元網絡中傳遞知識的,這爲理解語言和行爲之間的互動開闢了新的視野。該研究還可以指導未來的實驗工作,即檢驗人類中語言和感覺運動技能的相互作用。

該研究對機器人學領域尤其有意義,開發使機器能夠相互交流的技術是該領域的一個關鍵問題。雖然該研究開發的網絡非常小。但未來的研究者完全可以在此基礎上開發更復雜的網絡。這些網絡將被集成到既能理解人類語言和意圖,也能理解彼此的仿人機器人中。未來研究可整合自迴歸語言模型和表現最好的感覺運動模型中的表徵,以描繪參與指令遵循的每個階段的大腦區域的完整過程,從低級別的下一個詞預測到更高層次的結構化句子表徵,再到語言控制的感覺運動。