楊立昆最新訪談:AI 很像一個「盲人摸象」的故事

近年來,人工智能(AI)大模型在文字、圖像、視頻等領域展現了強大性能。然而,它們是否能夠 持續學習進而理解物理世界, 實現人類級智能,仍然是一個亟待解答的問題 。

日前,圖靈獎得主、Meta 首席科學家 Yann LeCun(楊立昆)接受了印度企業家、投資者 Nikhil Kamath 的專訪。

在訪談中,Yann LeCun 談到了他對於 AI 的獨特理解,並介紹了自監督學習、transformer、卷積神經網絡等。他還 詳述了大語言模型(LLM)在理解物理世界和實現持久記憶方面的挑戰以及可能的解決方法 ,並對 AI 的未來做了預測。

他樂觀地認爲, 目前人類距離通用人工智能(AGI)並不遙遠 ,“我不認爲我對於離 AGI 還有多遠的看法,與你從 Sam Altman 或 Demis Hassabis 那裡聽到的非常不同。你知道的,很可能在十年內, 但不會在明年或近兩年發生 。”

學術頭條在不改變原文大意的情況下,對部分訪談內容做了精編。內容如下:

Nikhil Kamath :我們很多人都聽說過圍繞 AI 的猜想,既有積極的一面,也有消極的一面。今天,我們希望可以清楚地理解 AI 對於所有人來說究竟是什麼,我們是如何到達這一步的,以及未來會怎樣。

我們先從什麼是 AI 開始。

Yann LeCun :好的,這是一個好問題。甚至我們還要問,什麼是智能(intelligence)。 在 AI 的歷史上,我認爲什麼是 AI 的問題有點像是盲人摸象的故事。 智能有非常不同的方面,縱觀 AI 的歷史,人們對什麼是智能提出了一種觀點,並基本上忽略了所有其他方面。

20 世紀 50 年代,人們認爲智能就是推理,那麼我們應該如何進行邏輯推理呢?如何尋找新問題的解決方案呢?

人們當時發現,當我們遇到問題時,可以將其形式化爲一個特定的數學問題。例如,一個經典的問題是旅行推銷員問題(Traveling Salesman Problem):給定一堆城市,如何設計出經過每個城市的最短路徑?這種問題可以看作一種優化問題。 優化的本質是尋找一個問題的解決方案 ,通過一個數值(比如路徑長度)來衡量解決方案的好壞,數值越小,解決方案越好。

Nikhil Kamath :那麼,尋找解決方案與智能有關嗎?如果你問我什麼是智能並用一句話定義,我會感到目瞪口呆。

Yann LeCun :是的,正確的。這實際上又回到了大象的例子。

Nikhil Kamath :能解釋一下這個大象的例子嗎?

Yann LeCun :好吧,你肯定知道盲人摸象的故事。第一個盲人走到大象身邊說,這摸起來像堵牆。第二個盲人走到大象腿旁邊說,這摸起來像棵樹。第三個盲人摸到了大象的鼻子,說這是根管子。沒有人能完整地瞭解大象是什麼,你會從不同的角度看到它。

因此, 智能的一個角度就是尋找解決方案。 但你知道,尋找特定問題的解決方案只是“大象”的一小部分,只是智能的一個方面,不是全部。

但從 20 世紀 50 年代至 20 世紀 90 年代,當時佔據主導地位的 AI 分支基本上只關注到這一點,認爲 AI 就是尋找問題的解決方案,就是去“規劃”。例如,將一堆大小不一的物體堆疊起來,需要規劃堆疊的順序;或者控制機器人手臂抓取一個物體時,需要規劃避開障礙物的路徑。這些都屬於“規劃”問題的範疇。

然而,這一分支完全忽略了感知問題,例如怎樣理解世界、識別物體或將物體從背景中分離出來。這些問題在當時並未被重視。

Nikhil Kamath :是的。

Yann LeCun :與此同時,還有另一個 AI 分支也始於 50 年代 。這一分支試圖重現人類和動物的智能機制 。動物和人類的大腦通過連接的神經元網絡進行自我組織和學習。智力並非自發生成,而是從大量簡單元素的網絡中涌現而出。

20 世紀 40 到 50 年代,人們開始認識到,智力和記憶來自神經元之間連接強度的變化。大腦通過調整神經元之間的連接強度來學習。科學家基於此提出了理論模型,並設計了能夠模擬這種行爲的電子電路,試圖以此重現智力的機制。你知道,我們可以建立。

Nikhil Kamath :所以,你是說,智能主要是解決某個問題的能力?

Yann LeCun :是的,這是我們剛剛提到的第一個觀點, 第二個是學習能力 。這就是 AI 的兩個分支。

Nikhil Kamath :好的。

Yann LeCun :所以,關注學習能力的分支在 20 世紀 50 年代末、60 年代初取得了一些成果。但在 60 年代末消亡了,因爲事實證明,那些在 60 年代設計的神經網絡的能力是極其有限的,不能用於生產真正的智能機器。但它對工程的各個部分都產生了影響,例如產生一個稱爲模式識別的工程領域。

Nikhil Kamath :嗯,所以你現在說的智能也是系統學習的能力?

Yann LeCun :學習,是的,你需要機器學習來感知,解讀圖像、聲音、語音。

Nikhil Kamath :那麼,如果我們需要畫一棵 AI 樹,AI 是在最上面的,其下是機器學習,機器學習有三種類別,其下是不同的神經網絡,再下面是強化工具,比如深度學習,之後是 LLM,這是現在最流行的。

Yann LeCun :是的,正確的結構是頂部是 AI,之後機器學習是解決 AI 問題的一種特殊方法。深度學習,它確實是當今 AI 的基礎,然後,神經網絡有很多層,這仍然是我們所做一切的基礎。再此之下,有幾個架構系列,卷積網絡、transformer 及其組合,再然後,在 transformer 下面會放置圖像或音頻識別、自然語言表示這些功能。

然後還有一個子類別,LLM,它們是自迴歸 transformer。Transformer 有特殊的架構使它們能預測下一個 token,所以能被用來生成 token。這就是自迴歸預測。

Nikhil Kamath :而且它最適合文本,但不適用於圖片、視頻或任何其他內容?

Yann LeCun :是的。LLM 適用於文本而不適用於其他事,是因爲文本是離散的,因此可能發生的事情是有限的,但如果你想預測視頻中會發生什麼,可能的幀數之類,本質上是無限的。就比如說,一幅圖像,1000*1000 像素,像素又是有顏色的,有三個值,這說明必須要生成 300 萬個值。我們不知道怎樣用概率分佈去表示超過 300 萬像素的所有可能圖像的集合。

Nikhil Kamath :但這正是大家所關注的事情。

Yann LeCun :這是我們很多人認爲 AI 的下一個挑戰。基本上,你有一個可以通過觀看視頻瞭解世界如何運作的系統。

Nikhil Kamath :如果你要說從視頻和圖片中學習,這將是下一個階段,這一階段會在 LLM 的當前位置嗎?

Yann LeCun :不,它與 LLM 截然不同, 我一直直言不諱地說 LLM 不是通往人類級智能的道路 。 LLM 適用於離散世界,它們不適用於連續的高維世界,視頻就是這種情況。

這就是爲什麼 LLM 不瞭解物理世界。儘管 LLM 在語言方面的功能是驚人的,但它們可能會犯非常愚蠢的錯誤,這表明它們不瞭解世界是如何運作的,不瞭解底層世界。 所以我一直地說,最聰明的 LLM 都不如你家裡的貓聰明,這是事實。

那麼, 未來幾年的挑戰,是建立解除 LLM 限制的 AI 系統。建立能夠理解物理世界,有持久記憶的系統。

Nikhil Kamath :持久記憶?

Yann LeCun :是的,持久記憶意味着它們可以記住任何事情,將事實存儲在內存中,然後在需要的時候檢索。

Nikhil Kamath :LLM 現在記不住東西嗎?

Yann LeCun :LLM 有兩種類型的內存。第一種類型在參數中,在訓練期間調整的係數中,它們在這一過程中會學到一些東西,但這並不是真正存儲一條信息。如果你在一堆小說上訓練 LLM,它無法反駁小說,但它會記住一些關於那本小說中單詞的統計數據,它也許能回答問題,關於故事和類似事情的一般問題,但它無法複述所有單詞。

Nikhil Kamath :這有點像人類,對吧?

Yann LeCun :你讀一本小說,你不可能記住所有單詞,除非你花費很多精力,這就是第一種記憶。上下文是第二種記憶。你輸入提示(prompt)。

並且由於系統能夠生成單詞,這些單詞或 tokens 被注入到輸入中,可以用作某種工作記憶,但這是一種非常有限的記憶形式。你真正需要的是一種更接近於人類大腦海馬體功能的記憶。哺乳動物有一種叫海馬體的東西,是大腦中心的一個結構。如果你沒有海馬體,你將無法記住超過 90 秒的事情。

Nikhil Kamath :所以如果 AI 可以預測未來,這是烏托邦還是反烏托邦?

Yann LeCun :這將是烏托邦。因爲除了我們的大腦之外,還有一種預測未來的方法,通過規劃動作序列以滿足特定條件來實現目標,這也許需要積累很多的知識才能夠做到這一點,也許擁有人類不具備的能力,因爲人腦有侷限而計算機能夠有計算之類的能力。

所以, 如果這個計劃在未來取得成功,可能五年到十年內,我們可以讓 AI 達到人類水平的智能。 這可能是樂觀的,對吧?

Nikhil Kamath :像通用人工智能(AGI)和人類級智能,你認爲很遙遠或者不太可能?

Yann LeCun :不,我不認爲這些是遙遠的。我不認爲我對於離 AGI 還有多遠的看法與你從 Sam Altman 或 Demis Hassabis 那聽到的非常不同。很可能在十年內,但這不會在明年或近兩年發生。它需要更久的時間。

而且, 如果只是擴大 LLM 規模、使用更大的計算機和更多的數據來訓練它們,這樣的方法是行不通的 。我們必須要擁有那些新的架構,那些 JEPAs (世界模型架構),以及能從現實世界中學習、可以分層規劃的系統。而不是不加思索一 個接一個產生單詞。所以,要系統 2,而不是系統 1。LLM 是系統 1,我所描述的架構,我稱之爲“目標驅動 AI”,是系統 2。

Nikhil Kamath: 今天我們試圖定義什麼是智能。我是這樣寫的:智能是信息的集合以及吸收新技能的能力。

Yann LeCun: 智能是技能的集合,以及快速學習新技能的能力。或者無需學習即可解決問題的能力。 這在 AI 領域被稱爲 zero-shot。將三者結合就是所說的智能。

Nikhil Kamath: 非常感謝你,Yann,感謝你所做的一切。

Yann LeCun: 謝謝。

訪談鏈接:

https://www.youtube.com/watch?v=JAgHUDhaTU0&t=316s

整理:阮文韻

如需轉載或投稿,請直接在公衆號內留言