Hinton揭秘Ilya成長曆程:Scaling Law是他學生時代就有的直覺

2003年夏天的一個週日,AI教父Hinton在多倫多大學的辦公室裡敲代碼,突然響起略顯莽撞的敲門聲。

門外站着一位年輕的學生,說自己整個夏天都在打工炸薯條,但更希望能加入Hinton的實驗室工作。

Hinton問,你咋不預約呢?預約了我們才能好好談談。

學生反問,要不就現在吧?

這位年輕學生就是Ilya Sutskever,剛剛完成本科二年級的數學課程,從教務處打聽到“想學機器學習,最好去找Hinton教授”。

他照做了,也因此成就了一段傳奇:

從AlexNet到AlphaGo,他兩次參與改變世界的研究。

OpenAI創立之初挖他去當首席科學家,在他的領導下,推出了GPT系列早期版本、DALL·E系列、代碼大模型Codex,直到ChatGPT,再次改變世界。

多年後,他發動董事會內訌,最終與OpenAI徹底分道揚鑣,全世界都在等待着他的下一個動作。

在OpenAI的時候,Ilya並不像Altman那樣到處拋頭露面,也不像Brockman天天在網上分享自己的“編程之禪”。

僅有的幾次演講和訪談中也多是聊技術、宏觀思考,不常談及自己的經歷,最近半年更是銷聲匿跡。

這次的故事,正是來自他的博士導師Geoffrey Hinton。

在與Sana Labs創始人的最新對話節目中,Hinton不僅講了自己的事,還回憶了師徒共事期間的一些往事。

20多年過去了,很多細節在Hinton的敘述裡還是那麼鮮活。

這段訪談錄像理所當然的火了,除了軼事之外,還涉及Ilya的一些學術思想怎麼來的,又是如何發展:

那麼,Hinton眼中的Ilya,到底是什麼樣子?

驚人的原始直覺

Ilya加入實驗室後,Hinton給他佈置的第一個任務是讀論文,一篇關於反向傳播的論文。

下一個週會,Ilya回來報告了,說“我不理解”。

Hinton很失望,內心OS:“這孩子看着挺機靈的,咋連鏈式法則求導這麼基礎的東西都看不懂?”

Ilya連忙解釋,哦這個部分我懂了,我不理解的是,爲什麼不給梯度加一個sensible functional optimizer?

Hinto團隊後來花了好幾年來解決這個問題,最初指出問題的卻是剛入門一週的Ilya。

像這樣的情況後面還在反覆發生……Hinton如此評價Ilya:

但Hinton也說搞不清楚Ilya這種直覺從何而來,或許歸功於他從小就對人工智能問題感興趣,再加上數學基礎很棒。

除了研究直覺,學生時期的Ilya也展現了超強的代碼和工程能力。

當時還沒有TenserFlow或Torch之類流行框架,機器學習的主要工具和平臺是Matlab。

一項工作需要在Matlab裡調整大量矩陣乘法代碼,Ilya做了一段時間就很不耐煩,說要爲Matlab寫一個界面:

Hinton聽說後苦口婆心勸他,你可別,這得花上一個月時間,我們不要分心,把手頭項目先做完。

Ilya卻輕描淡寫地說,害,沒事,今天早上我已經寫完了。

△這項工作出現在Ilya的博士畢業論文裡

打小就堅信Scaling Law

正如Hinton所言,Ilya在很多問題上有驚人的直覺。

今天全AI圈不少人信奉的Scaling Law,Ilya學生時代就已堅信,並抓住各種機會向身邊的人安利:

後來到OpenAI成立之初,Ilya的表述更加完善了:

早年間Hinton看來,這就像是研究者在沒有創新的想法時,一種“逃避責任”的表現。

Hinton提到在當年那個時間節點,沒人敢預料計算機速度今後會快上10億倍,最多想象到快100倍就不得了。

(此處應插入比爾蓋茨曾預言64k內存就足夠任何人用了笑話)

Ilya在2003年加入Hinton的實驗室,不知具體何時開始有了Scaling Law的想法,可能在他腦海裡已經盤旋了20多年。

後來直到2020年,GPT-3發佈的幾個月前,OpenAI團隊才正式在論文中向世人完整定義和介紹這一理念。

在語言模型上用GPU,比AlexNet更早

2010年底,Ilya和另一個學生James Martens(現DeepMind研究科學家)合作研究了一種語言模型,後來入選ICML 2011。

RNN架構,使用維基百科數據,在8張當時最先進的GPU上訓練,比在AlexNet上使用GPU還早兩年。

與今天的大語言模型預測下一個token不一樣,當時他們嘗試的是一次預測一個字符。

這款模型能力有限,比如給一段起始文字,模型可以繼續生成看起來像維基百科文章的語句。

雖然語意上像是胡言亂語,但語法和標點符號大部分是準確的,引號和括號已經能成對出現,主語和動詞形態一致,比如論文中的一段:

當時多倫多大學校刊的採訪中,Ilya認爲這已經超出了所有人的預期:

Hinton理智上也無法去相信這個系統能“理解”任何事,但它看起來就像是理解了。

比如給它一個地點組成的列表,它可以繼續生成地點,儘管還分不出國家和州的區別。

當年的Ilya並不願意討論這項工作的潛在應用。

在維基百科上成功後,團隊又嘗試了紐約時報文章數據,目標是教會它根據文字識別不同作者的身份。

但Ilya已經想到並承認,如果做的足夠好,這項技術有一天可能成爲洗稿軟件的基礎。

如今,這篇論文的代碼依然存放在多倫多大學的服務器上,供感興趣的人研究。

不止是預測下一個token

後來的AlexNet、師徒三人“拍賣”自己加入谷歌等大家已熟知的故事,這裡先略過。

Ilya加入OpenAI後,雖然不再與Hinton共事,但兩人的學術思想始終在一條路上。

ChatGPT問世後,不少人批評大模型本質上只是統計學,預測下一個token,就像隨機模仿人類說話的鸚鵡。

但Hinton和Ilya師徒二人都認爲,遠不止如此。

在Hinton眼中,問題之後的下一個token,便是答案的第一個token。

因此學會預測,就意味着必須學會理解問題。

這種理解的方式與人類相似,同時與老式基於三元組數據的自動補全有根本不同。

Ilya更是不遺餘力傳播這套理論,在去年和英偉達老黃的爐邊對話中說了這個,在OpenAI內訌兩週前最後一個公開採訪中也講了這個:

在另一場採訪中,他走的更遠:

這就是Ilya認爲的,爲什麼“預測下一個token”範式有可能抵達AGI,甚至有可能超越人類直至ASI。

預測即壓縮,壓縮即智能

在不同場合提到“預測下一個Token”時,Ilya大概率會同時提到“壓縮”,他認爲預測即是壓縮,壓縮就是智能的來源。

但Ilya總是從理論的角度去解釋這個想法,並不容易讓所有人都能理解。

比如在UC Berkley的一場演講中,他這樣解釋:

- “Kolmogorov壓縮器”,是理論上能生成特定數據集的、長度最短的一段程序,能最小化遺憾值。

- 隨機梯度下降,可以看成在軟計算機(比如大型Transformer)的權重裡,搜索隱含的“Kolmogorov壓縮器”。

- 神經網絡越大,就越能更好的近似“Kolmogorov壓縮器”,遺憾值越低。

Hinton也認同這個說法,並且在訪談中舉了非常形象的例子。

如果你問GPT-4堆肥和原子彈相似性在哪,大多數人類都回答不出來,認爲它們是非常不同的兩種東西。

GPT-4會告訴你,雖然他們的能量規模不同,時間尺度不同,但仍有相同之處:

通過類比,AI就理解了“鏈式反應”的概念。

Hinton認爲,AI在利用這種理解去將所有信息壓縮到自己的權重中。

Hinton眼中什麼是好學生?

說回到兩人相遇時,Hinton談到,與他交談沒多久就能看出他很聰明。

再多交談一會,就能發現他有很好的直覺,而且擅長數學。

所以選Ilya做學生是非常容易做出的決定。

那麼如何挑選其他學生?Hinton也用了Ilya最擅長的方法:跟着直覺走。

如果試圖吸收被告知的一切,最終會得到一個非常模糊的框架。相信一切,但是沒有用處。

所以Hinton眼中的好學生,應該擁有一個堅定的世界觀,並試圖擺弄輸入的事實以適應你的觀點。

後來我們也能看到,兩人都是秉持這樣的理念,堅持着“大模型不止是預測下一個token”,堅持着“預測即壓縮,壓縮即智能”。

他們也都堅持認爲,這個世界應該更加重視AI帶來的風險,一個因此離開了工作10年的谷歌,一個因此離開了一手拉扯大的OpenAI。

Hinton訪談完整視頻https://www.youtube.com/watch?v=tP-4njhyGvo

參考鏈接:[1]https://x.com/joelhellermark/status/1791398092400390195[2] https://www.cs.utoronto.ca/~ilya/pubs/ilya_sutskever_phd_thesis.pdf[3]https://magazine.utoronto.ca/people/students/ilya-sutskever-google-phd-fellowship/[4]https://www.utoronto.ca/news/u-t-alum-leading-ai-research-1-billion-non-profit-backed-elon-musk[5]https://icml.cc/2011/papers/524_icmlpaper.pdf[6]https://www.nvidia.com/en-us/on-demand/session/gtcspring23-s52092[7]https://www.youtube.com/watch?v=Yf1o0TQzry8

— 完 —