☰

楊立昆最新訪談：AI 很像一個「盲人摸象」的故事

近年來，人工智能（AI）大模型在文字、圖像、視頻等領域展現了強大性能。然而，它們是否能夠持續學習進而理解物理世界，實現人類級智能，仍然是一個亟待解答的問題。

日前，圖靈獎得主、Meta 首席科學家 Yann LeCun（楊立昆）接受了印度企業家、投資者 Nikhil Kamath 的專訪。

在訪談中，Yann LeCun 談到了他對於 AI 的獨特理解，並介紹了自監督學習、transformer、卷積神經網絡等。他還詳述了大語言模型（LLM）在理解物理世界和實現持久記憶方面的挑戰以及可能的解決方法，並對 AI 的未來做了預測。

他樂觀地認爲，目前人類距離通用人工智能（AGI）並不遙遠，“我不認爲我對於離 AGI 還有多遠的看法，與你從 Sam Altman 或 Demis Hassabis 那裡聽到的非常不同。你知道的，很可能在十年內，但不會在明年或近兩年發生。”

學術頭條在不改變原文大意的情況下，對部分訪談內容做了精編。內容如下：

Nikhil Kamath ：我們很多人都聽說過圍繞 AI 的猜想，既有積極的一面，也有消極的一面。今天，我們希望可以清楚地理解 AI 對於所有人來說究竟是什麼，我們是如何到達這一步的，以及未來會怎樣。

我們先從什麼是 AI 開始。

Yann LeCun ：好的，這是一個好問題。甚至我們還要問，什麼是智能（intelligence）。在 AI 的歷史上，我認爲什麼是 AI 的問題有點像是盲人摸象的故事。智能有非常不同的方面，縱觀 AI 的歷史，人們對什麼是智能提出了一種觀點，並基本上忽略了所有其他方面。

20 世紀 50 年代，人們認爲智能就是推理，那麼我們應該如何進行邏輯推理呢？如何尋找新問題的解決方案呢？

人們當時發現，當我們遇到問題時，可以將其形式化爲一個特定的數學問題。例如，一個經典的問題是旅行推銷員問題（Traveling Salesman Problem）：給定一堆城市，如何設計出經過每個城市的最短路徑？這種問題可以看作一種優化問題。優化的本質是尋找一個問題的解決方案，通過一個數值（比如路徑長度）來衡量解決方案的好壞，數值越小，解決方案越好。

Nikhil Kamath ：那麼，尋找解決方案與智能有關嗎？如果你問我什麼是智能並用一句話定義，我會感到目瞪口呆。

Yann LeCun ：是的，正確的。這實際上又回到了大象的例子。

Nikhil Kamath ：能解釋一下這個大象的例子嗎？

Yann LeCun ：好吧，你肯定知道盲人摸象的故事。第一個盲人走到大象身邊說，這摸起來像堵牆。第二個盲人走到大象腿旁邊說，這摸起來像棵樹。第三個盲人摸到了大象的鼻子，說這是根管子。沒有人能完整地瞭解大象是什麼，你會從不同的角度看到它。

因此，智能的一個角度就是尋找解決方案。但你知道，尋找特定問題的解決方案只是“大象”的一小部分，只是智能的一個方面，不是全部。

但從 20 世紀 50 年代至 20 世紀 90 年代，當時佔據主導地位的 AI 分支基本上只關注到這一點，認爲 AI 就是尋找問題的解決方案，就是去“規劃”。例如，將一堆大小不一的物體堆疊起來，需要規劃堆疊的順序；或者控制機器人手臂抓取一個物體時，需要規劃避開障礙物的路徑。這些都屬於“規劃”問題的範疇。

然而，這一分支完全忽略了感知問題，例如怎樣理解世界、識別物體或將物體從背景中分離出來。這些問題在當時並未被重視。

Nikhil Kamath ：是的。

Yann LeCun ：與此同時，還有另一個 AI 分支也始於 50 年代。這一分支試圖重現人類和動物的智能機制。動物和人類的大腦通過連接的神經元網絡進行自我組織和學習。智力並非自發生成，而是從大量簡單元素的網絡中涌現而出。

20 世紀 40 到 50 年代，人們開始認識到，智力和記憶來自神經元之間連接強度的變化。大腦通過調整神經元之間的連接強度來學習。科學家基於此提出了理論模型，並設計了能夠模擬這種行爲的電子電路，試圖以此重現智力的機制。你知道，我們可以建立。

Nikhil Kamath ：所以，你是說，智能主要是解決某個問題的能力？

Yann LeCun ：是的，這是我們剛剛提到的第一個觀點，第二個是學習能力。這就是 AI 的兩個分支。

Nikhil Kamath ：好的。

Yann LeCun ：所以，關注學習能力的分支在 20 世紀 50 年代末、60 年代初取得了一些成果。但在 60 年代末消亡了，因爲事實證明，那些在 60 年代設計的神經網絡的能力是極其有限的，不能用於生產真正的智能機器。但它對工程的各個部分都產生了影響，例如產生一個稱爲模式識別的工程領域。

Nikhil Kamath ：嗯，所以你現在說的智能也是系統學習的能力？

Yann LeCun ：學習，是的，你需要機器學習來感知，解讀圖像、聲音、語音。

Nikhil Kamath ：那麼，如果我們需要畫一棵 AI 樹，AI 是在最上面的，其下是機器學習，機器學習有三種類別，其下是不同的神經網絡，再下面是強化工具，比如深度學習，之後是 LLM，這是現在最流行的。

Yann LeCun ：是的，正確的結構是頂部是 AI，之後機器學習是解決 AI 問題的一種特殊方法。深度學習，它確實是當今 AI 的基礎，然後，神經網絡有很多層，這仍然是我們所做一切的基礎。再此之下，有幾個架構系列，卷積網絡、transformer 及其組合，再然後，在 transformer 下面會放置圖像或音頻識別、自然語言表示這些功能。

然後還有一個子類別，LLM，它們是自迴歸 transformer。Transformer 有特殊的架構使它們能預測下一個 token，所以能被用來生成 token。這就是自迴歸預測。

Nikhil Kamath ：而且它最適合文本，但不適用於圖片、視頻或任何其他內容？

Yann LeCun ：是的。LLM 適用於文本而不適用於其他事，是因爲文本是離散的，因此可能發生的事情是有限的，但如果你想預測視頻中會發生什麼，可能的幀數之類，本質上是無限的。就比如說，一幅圖像，1000*1000 像素，像素又是有顏色的，有三個值，這說明必須要生成 300 萬個值。我們不知道怎樣用概率分佈去表示超過 300 萬像素的所有可能圖像的集合。

Nikhil Kamath ：但這正是大家所關注的事情。

Yann LeCun ：這是我們很多人認爲 AI 的下一個挑戰。基本上，你有一個可以通過觀看視頻瞭解世界如何運作的系統。

Nikhil Kamath ：如果你要說從視頻和圖片中學習，這將是下一個階段，這一階段會在 LLM 的當前位置嗎？

Yann LeCun ：不，它與 LLM 截然不同，我一直直言不諱地說 LLM 不是通往人類級智能的道路。 LLM 適用於離散世界，它們不適用於連續的高維世界，視頻就是這種情況。

這就是爲什麼 LLM 不瞭解物理世界。儘管 LLM 在語言方面的功能是驚人的，但它們可能會犯非常愚蠢的錯誤，這表明它們不瞭解世界是如何運作的，不瞭解底層世界。所以我一直地說，最聰明的 LLM 都不如你家裡的貓聰明，這是事實。

那麼，未來幾年的挑戰，是建立解除 LLM 限制的 AI 系統。建立能夠理解物理世界，有持久記憶的系統。

Nikhil Kamath ：持久記憶？

Yann LeCun ：是的，持久記憶意味着它們可以記住任何事情，將事實存儲在內存中，然後在需要的時候檢索。

Nikhil Kamath ：LLM 現在記不住東西嗎？

Yann LeCun ：LLM 有兩種類型的內存。第一種類型在參數中，在訓練期間調整的係數中，它們在這一過程中會學到一些東西，但這並不是真正存儲一條信息。如果你在一堆小說上訓練 LLM，它無法反駁小說，但它會記住一些關於那本小說中單詞的統計數據，它也許能回答問題，關於故事和類似事情的一般問題，但它無法複述所有單詞。

Nikhil Kamath ：這有點像人類，對吧？

Yann LeCun ：你讀一本小說，你不可能記住所有單詞，除非你花費很多精力，這就是第一種記憶。上下文是第二種記憶。你輸入提示（prompt）。

並且由於系統能夠生成單詞，這些單詞或 tokens 被注入到輸入中，可以用作某種工作記憶，但這是一種非常有限的記憶形式。你真正需要的是一種更接近於人類大腦海馬體功能的記憶。哺乳動物有一種叫海馬體的東西，是大腦中心的一個結構。如果你沒有海馬體，你將無法記住超過 90 秒的事情。

Nikhil Kamath ：所以如果 AI 可以預測未來，這是烏托邦還是反烏托邦？

Yann LeCun ：這將是烏托邦。因爲除了我們的大腦之外，還有一種預測未來的方法，通過規劃動作序列以滿足特定條件來實現目標，這也許需要積累很多的知識才能夠做到這一點，也許擁有人類不具備的能力，因爲人腦有侷限而計算機能夠有計算之類的能力。

所以，如果這個計劃在未來取得成功，可能五年到十年內，我們可以讓 AI 達到人類水平的智能。這可能是樂觀的，對吧？

Nikhil Kamath ：像通用人工智能（AGI）和人類級智能，你認爲很遙遠或者不太可能？

Yann LeCun ：不，我不認爲這些是遙遠的。我不認爲我對於離 AGI 還有多遠的看法與你從 Sam Altman 或 Demis Hassabis 那聽到的非常不同。很可能在十年內，但這不會在明年或近兩年發生。它需要更久的時間。

而且，如果只是擴大 LLM 規模、使用更大的計算機和更多的數據來訓練它們，這樣的方法是行不通的。我們必須要擁有那些新的架構，那些 JEPAs （世界模型架構），以及能從現實世界中學習、可以分層規劃的系統。而不是不加思索一個接一個產生單詞。所以，要系統 2，而不是系統 1。LLM 是系統 1，我所描述的架構，我稱之爲“目標驅動 AI”，是系統 2。

Nikhil Kamath：今天我們試圖定義什麼是智能。我是這樣寫的：智能是信息的集合以及吸收新技能的能力。

Yann LeCun：智能是技能的集合，以及快速學習新技能的能力。或者無需學習即可解決問題的能力。這在 AI 領域被稱爲 zero-shot。將三者結合就是所說的智能。

Nikhil Kamath：非常感謝你，Yann，感謝你所做的一切。

Yann LeCun：謝謝。

訪談鏈接：

https://www.youtube.com/watch?v=JAgHUDhaTU0&t=316s

整理：阮文韻

如需轉載或投稿，請直接在公衆號內留言

楊立昆最新訪談：AI 很像一個「盲人摸象」的故事

相關資訊