☰

萬字獨家視頻專訪：斯坦福李飛飛教授回顧20年AI征程,並解讀未來每份工作都需要AI技能

來源：圖靈人工智能

圖片來源：pixabay

素材來源：官方媒體/網絡新聞

在硅谷的中心地帶，山景城的美國計算機歷史博物館(Computer History Museum)最近舉辦了一場引人注目的論壇。

作爲人工智能領域的先驅，李飛飛教授已經在這個快速變化的科技前沿奮戰了二十多年。她是斯坦福大學計算機科學系教授，同時擔任斯坦福大學以人爲中心的AI研究所的共同主任。在過去的歲月裡，她曾領導斯坦福AI實驗室，並在谷歌擔任AI和機器學習的首席科學家。此外，她還是美國國會和白宮委託的國家AI研究資源任務小組的重要成員。這些經歷使她成爲了連接學術界、產業界和政策制定者的關鍵橋樑。

在對話中，李飛飛教授回顧了AI發展的關鍵時刻。她特別強調了2022年10月底ChatGPT的爆發性出現。"對於我們這些研究人員來說，這個趨勢其實早已顯現，"她說道。早在2021年，她和同事們就已經意識到了基礎模型的巨大潛力，並創立了全球首個專注於這一領域的研究中心。ChatGPT與之前的AI突破（如AlphaGo）有着本質的不同。"這是第一次AI如此親密地走進了普通用戶的生活，"她強調道。與只有圍棋大師才能體驗到的AlphaGo不同，ChatGPT觸手可及，任何有互聯網連接的人都能使用。這種普及性不僅喚醒了公衆對AI的認知，也引起了各國政府的高度關注。

同時李飛飛教授強調了AI教育的重要性。"AI正在成爲新的語言，"她呼籲加強跨學科教育，認爲不論學生未來選擇什麼專業，都應該對AI有基本的瞭解。即使你的興趣不在編程或AI技術細節上，如果你對藝術、政治學、法律或醫學感興趣，AI也有你的一席之地，"

專訪要點

1、AI 的背景：李飛飛教授解釋了 AI 的歷史，從 1956 年達特茅斯會議開始，AI 專家們致力於通過推理和決策使機器具有類人思維能力。

2、AI 的起伏：AI 歷史經歷了幾次高潮和低谷，包括 1970 年代專家系統的興起與破滅，以及 1990 年代“安靜的革命”——統計建模和機器學習逐漸成爲 AI 的核心方法。

3、深度學習的爆發：2012 年，通過 ImageNet 數據集和 AlexNet 的勝利，AI 進入深度學習時代，結合了神經網絡、大數據和 GPU 計算，推動了現代 AI 的飛躍。

4、AI 的應用與影響：從 Google 到醫療保健、教育、農業，AI 技術的應用無處不在，推動了各行各業的變革。她的 ImageNet 項目如何影響了全球 AI 研究者的發展。

5、未來 AI 的挑戰與機遇：李飛飛教授認爲，未來 AI 將繼續在技術上取得突破，同時社會將面臨如何治理和安全使用這些技術的挑戰。她特別指出了空間智能的重要性，認爲未來 AI 不僅限於語言智能，還包括更廣泛的 3D 空間理解。

文稿整理

主持人 Dan'l Lewin：好好好，歡迎大家！我們馬上開始。嗯，把精彩的內容留到後面，它馬上就要來了。歡迎大家，特別是那些還不認識我的人，我叫 Dan Lewin，是博物館的首席執行官，我在這裡工作了大約六年半的時間。

今天幾乎是座無虛席，而且我們也在進行在線直播，所以也歡迎那些遠程觀看的觀衆。如果你們還不清楚的話，我想告訴你們，博物館大約在六年前對其使命進行了調整。我們仍然像所有收藏機構一樣繼續收藏和保存歷史，併爲後世保存這些財富，但我們也非常關注“人”。在早期，“人” 就是計算機，然後我們發明了這些叫做“計算機”的機器，而現在，生活已經離不開它們。

因此，博物館的使命也隨着時代的變化而進化，我們的使命是解碼技術的路徑，探討我們如何獲得技術主導權，因爲我們擁有這個收藏，面對數字世界的當下，這一目標不斷變化，並對人類條件有着深遠的影響。今晚的節目將從個人的角度深度探討這個問題，我非常激動地歡迎李飛飛教授來到我們的節目。

李飛飛：謝謝，謝謝計算機歷史博物館，感謝Dan和Tom的邀請。

回顧AI的70年曆史

湯姆·卡利：謝謝。好的，大家都得趕快去買這本書，也可以買一些送給你的親朋好友，它真的很好讀。那麼，飛飛，我們要看看觀衆有多“宅”。有多少人可以向別人解釋什麼是隨機梯度下降和反向傳播？請舉手。哦，好吧，太棒了。你在書裡提到了一點關於AI的歷史。我想知道你能否從1956年開始，講講當時的研究人員在做什麼，以及他們當時認爲解決人工智能問題需要多長時間？

李飛飛：好的，首先，非常感謝。感謝計算機歷史博物館，感謝丹尼爾和湯姆的邀請。我想先說，對於那些慶祝農曆節日的人，祝大家中秋節快樂！今天嗯，好的，現在讓我們回到1956年，那不是在達特茅斯的研討會，對吧？哦，我以爲那是1959年。看來我的記憶有點模糊了。我知道觀衆裡肯定有真正的歷史學家，所以1956年，那是一個炎熱的夏天，在達特茅斯學院，AI的奠基者們齊聚一堂：約翰·麥卡錫（John McCarthy）、馬文·明斯基（Marvin Minsky）、克勞德·香農（Claude Shannon），還有第四個人是誰來着？嗯，我想起來了，還有一個人。抱歉，我忘記了名字。他們召集了一羣計算機科學家，在我記得的一個來自DARPA的小額資助下，討論計算的未來。當時，我想是約翰·麥卡錫剛剛創立了這個叫做“人工智能”的新領域。他們在那個夏天的研討會上試圖撰寫一篇白皮書，探討什麼是人工智能、它能做什麼、我們如何解決這個問題。他們主要專注於推理，特別是演繹推理，試圖讓機器像人類一樣思考，回答問題，做出決策。這一路走來已經有70多年的歷史了，我們見證了AI的高潮與低谷。你可能認爲我們現在處於一個炒作週期中，其實在70年代，我們經歷了關於專家系統的炒作週期。當時專家系統開始真正展示出用一階邏輯和專家系統在AI中實際應用的潛力，但那個泡沫最終破裂了，因爲它沒有兌現當時的承諾。我記得有雜誌封面在談論機器人接管社會的事情，那是1970年代的事。然而，事情並沒有如預期般發生，資金也開始枯竭，無論是學術界還是工業界的資金都大幅減少。我認爲國防領域的資金仍然存在，但一些研究人員實際上避開了這些資金來源。所以，總的來說，這個領域在當時萎縮了。

然後到了1990年代，我會說AI領域開始悄然發生革命。雖然公衆仍然把那段時期視爲“AI冬天”，但我個人認爲那是早春的開始，雖然雪還沒有完全融化，但綠色的萌芽已經開始出現。我認爲推動這一切的是統計建模，與計算機編程結合，我們開始稱之爲機器學習。AI和機器學習找到了它的語言，通過統計學和機器學習的語言開始在各個領域取得突破，如自然語言處理、計算機視覺和語音識別。當時，研究開始深入這些領域。對我個人而言，我在2000年進入AI領域，作爲加州理工學院的博士生。當時很多公衆還認爲那是“冬天”，但對我來說，兩件事對我們這一代AI研究人員具有決定性意義。首先是統計機器學習，當時我的第一堂研究生課程實際上就是“神經網絡和模式識別”。我們閱讀了反向傳播的論文，也學習了支持向量機、貝葉斯網絡、提升方法和核方法等。當時我們使用這些工具開始研究AI問題，比如計算機視覺。

其次，我認爲發生在實驗室之外、學術界之外的一件事對AI具有決定性作用，那就是互聯網的崛起。我認爲Google是在1999年或2000年成立的，互聯網開始爲我們提供數據。最後，還有大約十年後GPU的到來。所以事情開始悄然融合，我認爲大約在2010年至2012年，AI的公衆時刻真正到來了。至少在硅谷，這個公衆時刻開始發生。Google和其他公司開始嘗試收購一所名不見經傳的初創公司，這家公司來自多倫多大學，贏得了ImageNet挑戰賽。從那時起，我們進入了現代AI的時代，即AI的復興時代。

湯姆·卡利：你參與的一個項目在改變人們對AI可能性的看法方面起到了非常重要的作用，那就是ImageNet。你和同事們一起創建了一個包含1500萬張圖片的數據集，並對其進行了標註。爲什麼這個項目在推動現代AI浪潮方面如此重要？

李飛飛：對於那些不瞭解的人來說，ImageNet是一個數據集項目，始於2006年，花了幾年的時間，在2009年發表。最終，在2009年，它成爲了AI領域最大的一個數據集。它包含了1500萬張互聯網圖片，這些圖片由人類分類、整理、組織和編目，涵蓋了22,000個自然物體類別。在我們發佈ImageNet作爲開源數據集後，立即與研究社區合作，發起了年度的ImageNet挑戰賽，邀請來自全球的機器學習和計算機視覺研究人員參與這一年度的目標識別挑戰。

這個年度挑戰賽始於2010年，最終在2012年達到了一個關鍵時刻。那一年比賽的第一名得主，就是現在大家都熟知的“AlexNet”，這是由多倫多大學的研究人員完成的工作，包括Geoffery Hinton、Ilya Sutskever、Alex Krizhevsky等人。那個時刻對於AI領域具有非常象徵性的意義，因爲現代AI的三個基本要素首次匯聚在一起。首先是神經網絡，這就是爲什麼湯姆剛纔在問大家反向傳播的問題，因爲這是神經網絡的數學基礎。第一個要素是神經網絡，第二個要素是大數據，使用ImageNet數據集，第三個要素是GPU計算。當時他們用了兩塊GPU進行訓練。ImageNet的重要性在今天看來似乎有些微不足道，大家都知道AI依賴數據，但在ImageNet之前，人們並不相信數據。當時AI的研究主要集中在完全不同的範式上，使用的數據量也非常少，有時甚至根本沒有數據，而是使用手工設計的特徵工程。我們提出了一個非常激進的想法，就是拋棄所有這些過去的方法，轉而採用數據驅動的方法，用大容量的模型來處理數據，以推動AI的泛化能力。這種想法在當時受到了許多人的懷疑。

湯姆·卡利：所以當時並沒有這種觀點，即神經網絡可以看作是通用函數逼近器，如果給它們足夠的樣本，它們就能夠學習一種將輸入映射到輸出的函數。這種觀點並不是主流，對吧？

李飛飛：沒錯，這種觀點當時並不流行。

湯姆·卡利：我在你的書裡讀到，很多年長的同事對你當時做的事情感到疑惑。那麼，我覺得這是一個很好的例子，說明如果你相信某件事，有時你應該堅持下去，儘管你可能並沒有得到來自同事們的支持和認可。

李飛飛：是的，但我並沒有從負面的角度去寫這段經歷。我認爲這是科學進步的一部分，不管是來自年長的同事、年輕的同事，還是學生的挑戰，我每天都會被我的學生挑戰，而我可能每天都會有99個愚蠢的想法，但偶爾也會有一個好主意。所以當時被質疑是很正常的，因爲這是一個未經驗證的想法。但我想對年輕人來說，故事的另一面是，受到挑戰並不意味着你應該放棄，這是這裡的重要教訓。

AI領域最新發展

湯姆·卡利：是的，那麼，從2012年到2024年，AI領域有哪些你認爲最重要的進展呢？

李飛飛：不管你信不信，2012年不僅是AlexNet的關鍵時刻，同年，美國國家科學院院士珍妮弗·道德納（Jennifer Doudna）和她的同事們還發現了CRISPR技術。我記得2012年我們有過一次談話，結果發現當時兩大科學技術突破幾乎同時發生了。自2012年以來，已經過去12年了，發生了很多事情。在研究領域，AlexNet和ImageNet是一個重要的時刻，它打開了大公司的大門，尤其是Google等科技巨頭開始加倍投資深度學習。這是深度學習時代的開端。然後，我認爲另一個公衆時刻出現在2016年1月，當時AlphaGo擊敗了圍棋大師李世石，並贏得了比賽。這是公衆第一次意識到，機器已經強大到可以在那些人類認爲獨特的任務上挑戰人類了。這也引入了一類新的算法，叫做強化學習，這是在深度學習基礎上的進一步發展。

在2016年至2022年之間，AI領域的投資逐漸增加，特別是在大科技公司和創業領域。同時，我們也開始看到“技術反感”的苗頭，尤其是在2016年劍橋分析公司醜聞以及大選之後。大約在那個時候，機器學習的偏見問題開始被提出，自駕車事故也發生了，最早大約是在2017年。於是，我們開始進行關於技術的社會對話，既有對技術的期待，也有對技術的擔憂。所有這些最終在2022年10月底的ChatGPT事件中達到了頂峰。對於我們這些研究人員來說，我們其實早就看到這個趨勢正在發生。你可能覺得我是在吹噓，但我告訴你爲什麼。作爲斯坦福以人爲中心的AI研究所的聯合主任，早在2021年，我們就創辦了全球首個關於基礎模型研究的中心，因爲我們看到了GPT-2的結果。當時公衆還不瞭解，但像我們這樣的研究人員已經意識到，我的同事Percy Liang和Chris Ré當時就說：“天啊，這將會改變一切。”所以我們立即投入資源成立了這個中心。因此，當ChatGPT事件發生時，我們感到慶幸我們提前做了準備，但同時也對它在媒體上的迅速崛起感到震驚。

我認爲AlphaGo時刻與ChatGPT時刻在公衆意識上的區別，不僅僅是接觸AI的人數不同，更重要的是，這是第一次AI如此親密地走進了普通用戶的生活。AlphaGo只有圍棋大師能夠使用，而ChatGPT則在每個人的指尖上。這對每一個個人來說都是一次覺醒的時刻，同時對各國政府也是一次覺醒。在ChatGPT之前，我們研究所的使命之一是彌合科技界與政策界的差距。你在華盛頓工作，我本來不會經常飛往華盛頓，但我當時一直在飛往華盛頓進行對話。而在ChatGPT之後，情況完全反轉，華盛頓開始頻繁聯繫我們，想知道發生了什麼。我認爲這十年來，公衆看到的可能是一個個獨立的事件，但從我們的角度來看，這是一條不斷上升的曲線，科技投資和進展越來越多。

湯姆·卡利：那麼，在研究界，關於這些大型語言模型到底是“隨機鸚鵡”還是具備實際推理能力的爭論還在繼續嗎？你對此怎麼看？

李飛飛：我理解你用“隨機鸚鵡”這個詞的原因，這個詞來源於一篇批評大型語言模型的論文。我認爲我們確實需要從不同角度去批評這些模型，無論是它們的能力、能耗、侷限性，還是偏見等問題。但從科學的角度來看，我會用更中立的語氣，而不是稱它們爲“神”或“鸚鵡”。實際上，它是一個具備很強能力的大模型，不僅能進行模式匹配和學習，還能進行預測，甚至在推理上也有一定的表現。它能夠向你解釋事物的原理。最近幾天剛剛發佈的版本似乎在推理能力上更進一步，尤其是在推理時間方面。所以，我認爲說它具備某種推理能力是合理的，雖然它的模式識別能力可能被某些人稱爲“鸚鵡”效應，但它的確展示了某種程度的推理能力。不過，作爲一名教育者，我始終非常謹慎，特別是在與公衆溝通時，我的責任是誠實的傳達信息。我非常小心不要過度誇大這些模型的推理能力，也不會做一些關於“感知”或“意識”的誇張推斷。

湯姆·卡利：那麼，你認爲未來3到5年內會發生什麼？這些系統目前有哪些最大的侷限性？我們在哪些領域可以取得真正的進展，以改善它們的表現？

李飛飛：湯姆，我不確定你是在問關於語言模型的問題，還是AI整體的問題。

湯姆·卡利：嗯，比如說，有些人認爲我們可以通過購買更多的GPU來取得巨大進展，比如購買200萬個GPU而不是兩個GPU，或者使用更多數據，甚至合成數據。有人說，“Transformers和注意力機制是你所需要的一切”。他們認爲只要擴展現有技術，就能取得很大進展。而另一些人則認爲，現有的AI技術存在根本性的侷限性，我們必須探索新的方法，比如神經符號學等。那麼，你對這個爭論有什麼看法嗎？

李飛飛：首先，這些都是很好的觀點。實際上，我認爲我們正處於真正的AI數字革命中，所以接下來的3到5年將繼續在技術上非常激動人心，但同時也會給我們的社會，尤其是政策領域，帶來緊張局面。

你提到的這些問題更多的是技術層面的。首先，我深信人類歷史上的每一個時刻，科技和科學都有其侷限性，但我們總是能夠推動前沿不斷向前發展。就我個人而言，我對空間智能特別感興趣，這遠遠超出了語言的範疇。如果你看人類和動物的智能，語言只是其中的一部分。即使我們在談論高級智能，人類之所以能夠建立文明，依賴的遠遠不止語言。比如從金字塔的建造，到第一次工業革命中的機器設計，再到DNA結構的發現，甚至電影攝影的發明，這些成就大多依賴於超越語言的空間智能。所以，語言之外的領域肯定會爲我們打開新的大門。從技術上講，我們仍然可以看到數據擴展法則的健康證據，特別是在數據規模上。但我們也開始越來越多地聽到，關於數據是否已經接近極限的討論，特別是互聯網上的文本數據。很可能我們確實已經接近了這個極限。但從我所在的高等教育領域來看，我也看到很多科學發現的數據還沒有得到充分的收集和利用，從這些數據的數字化到建模，還有很多未被開發的潛力。

我認爲未來3到5年內，我們將看到各個領域的科學發現因AI和機器學習而蓬勃發展，這不僅僅是大型基礎模型的商業化。我們將看到更多關於空間智能的發展，我個人也參與其中，並對此感到非常興奮。接下來的3到5年不僅是技術的年代，也是我們如何部署這些模型、如何管理它們的年代。現在在我們所在的加州，已經開始討論與AI相關的法案了。我個人支持安全措施和政策措施，但也擔心即使是出於良好意圖的法案，也可能對科學界和開源社區產生意想不到的負面影響。這些問題肯定會在未來的3到5年內逐漸顯現出來。

湯姆·卡利：我想我們稍後會回到政策問題上，但現在能否請你向觀衆解釋一下你所說的“空間智能”是什麼？計算機具備看、做和學習的能力意味着什麼？我們如何判斷在空間智能方面取得了進展？你在斯坦福的同事Chelsea Finn說過，我們距離讓機器人去一個從未見過的房子裡做早餐的能力還很遙遠。你怎麼看？

李飛飛：是的，確實很遙遠，我也很期待那一天，但它確實還很遠。這個觀衆太黑了，湯姆和我看不到大家的反應，所以我就不問問題了。不過，如果你追溯人類語言的發展，當然這仍然是一個科學研究領域，但大致來說，最早的原始語言時刻可以追溯到大約一到兩百萬年前，那是人類早期祖先的時期。

很多人說我們今天使用的語言大約是在過去30萬年內發展起來的。但如果你追溯人類“看”空間的能力，理解三維世界、看到障礙物、食物、如何導航的能力，這可以追溯到大約5.4億年前。那時水下的動物第一次發展出了光感器官，有了這種感知能力，感知就開始了。當感知開始後，動物們開始有目的地移動。在此之前，它們只是在漂浮，可能會偶爾碰到一些東西，因爲早期已經有了觸覺感知，但那時的移動還非常隨意。一旦能夠“看”見，進化中的智能就開始發展了。所以，空間智能總結了這種能力。用今天的語言來說，就是理解、推理、生成和與三維世界互動的能力。現在我們同時生活在物理世界和數字世界中，因此這種空間智能適用於這兩個領域。這也與如果你想讓一個機器人來你家做早餐密切相關。機器人必須具備空間智能，知道冰箱在哪裡，爐子在哪裡，雞蛋在哪裡，如何打破雞蛋並將其放入鍋中，所有這些都屬於空間智能的範疇。

三年內實現AGI？

湯姆·卡利：明白了，爲什麼這聽起來這麼有趣（笑）？很多討論都圍繞着人工通用智能（AGI）這個概念。我想問你，你認爲這是一個有用的概念嗎？人們通常指的是一種可以完成所有經濟上有用的任務的AI，不僅限於機器人。你認爲這是一個有用的概念嗎？還有，有些人說這會在三年內實現，你認爲這是否過於樂觀？

李飛飛：這是個好問題，我必須承認，這真是一個“硅谷式”的問題（笑）。有時我在腦海中與AI的先驅們進行對話，像約翰·麥卡錫（John McCarthy）、馬文·明斯基（Marvin Minsky）、艾倫·圖靈（Alan Turing）等人。他們可能不會稱自己爲AI的開創者，因爲當圖靈向人類提出“思維機器”的問題，並最終轉化爲圖靈測試時，AI這個詞還沒有被髮明出來。如果我和這些巨人們對話，我認爲他們對AI的定義可能非常相似——那就是智能的通用能力。所以，如果他們把AI看作是這種通用智能能力，那麼從學術角度來看，我很難將AI和AGI區分開來，因爲它們深深交織在一起。AGI這個詞大約十年前纔開始流行，更多是來自行業的營銷界。當然，這並沒有什麼不好，但從學術、科學和技術研究者的角度來看，作爲一個教育者，我認爲我們應該始終追求那些最困難的問題，即使我們一生都未必能夠解決它們。

我認爲AI這個領域的北極星目標始終是追求通用智能能力。那麼，我怎麼看待“人工通用智能”（AGI）這個詞？沒人問過我這個詞是怎麼來的（笑），不過沒關係。其實AI領域的很多定義，尤其是我們熱愛的、仍然相信的定義，和AGI的定義在很大程度上是重疊的。至於三年內能否實現AGI，如果面對風險投資人，我會說“當然可以”（笑）。但面對你，我覺得我們需要負責任地看待這個問題。機器是否會在一些重要任務上超越人類？我們已經在某些領域做到了，比如2006年DARPA的無人駕駛汽車挑戰賽，我的同事Sebastian Thrun帶領團隊在內華達沙漠中駕駛了138英里的無人駕駛汽車，這就是一個了不起的能力展示。我們還有機器翻譯，能夠翻譯幾十種語言，這是非常出色的能力。還有AlphaFold、AlphaGo，甚至ImageNet，它能識別上千種複雜的物體類別，比如星鼻鼴、各種犬種等等，這些都是超越人類的能力。

所以我們已經在某些方面取得了超人類的成就，並且未來會繼續取得一些進展。但如果要定義全面的、像人類一樣複雜的智能能力，我認爲三年內不太可能實現。

湯姆·卡利：那麼，能不能談談你在斯坦福正在做的事情？你們的“以人爲中心的AI（Stanford Human-Centered AI Institute）”倡議到底意味着什麼？

李飛飛：這是個很好的問題。我認爲“以人爲中心的AI”對我來說是一個思考AI工作框架的方式。AI是由人創造的，被人使用，並且影響着人們的生活。什麼樣的框架可以指導我們思考這項技術？2018年3月，我還在Google擔任首席科學家時，在《紐約時報》上發表了一篇文章，首次提出了“以人爲中心的AI”這個框架。這一靈感來源於我在Google的工作。我有機會與許多企業合作，從日本的黃瓜農場使用AI到《財富》500強公司希望通過AI徹底改革他們的商業模式。當時我意識到這項技術比我想象的還要龐大，它將以深刻的方式影響我們的生活、商業和整個世界。這種意識讓我感到害怕，意識到一項工具可以如此強大，必須認真考慮它的影響。對我來說，這種深遠的影響必須紮根於“人類影響”的思考之中。在斯坦福的HAI（以人爲中心的AI研究所），我們從三個層次來思考AI對人類的影響：個體、社區和社會。

舉個例子，個體層次是關於每一個個體的影響。這項技術如何影響或惠及你？如果你是藝術家，這項技術是增強你的能力，還是在侵害你的知識產權？如果你是病人，這項技術是否能讓你更好地康復而不會剝奪你的人類尊嚴？如果你是學生，這項技術是否能幫助你更好地學習？社區層次是關於AI如何作爲工具幫助資源匱乏的社區。例如，AI加上遠程醫療是一個非常好的應用，可以爲那些缺乏醫院和醫生的社區提供幫助。但同時，AI的偏見是否會對某個社區產生不公平的影響？我們已經看到了這種現象的出現。

最後是社會層次。今天，我們無法停止討論AI對社會的影響，比如在民主進程中，AI、深度僞造和信息戰如何改變這一切。我們也在討論AI對就業的影響，從軟件工程師到卡車司機、放射科醫生，AI正在影響整個社會。這些問題都是人類問題。數學是乾淨的，但人類世界是複雜和混亂的，而AI已經從那個只存在於乾淨數學和編程的世界走向了複雜的人類世界。

AI好處和應用

湯姆·卡利：有人曾說過，技術很簡單，但人類很難，尤其是那些年幼的人（笑）。那麼，AI在健康領域的潛在好處和應用是什麼？你對哪些應用感到最興奮？

李飛飛：謝謝你的問題，這讓我想起了我書中的第十章（笑）。健康領域的應用幾乎是無限的。我個人非常受啓發，因爲我花了無數時間坐在初級護理、急診室、手術室外，以及門診護理環境中。因爲我有一位長期患病的親人，我照顧我媽媽很多年了。通過這些經歷，我意識到我們的醫療系統充滿了“人照顧人”的情景，而AI可以爲這個領域帶來巨大的變革。

但所有這些醫護人員——從護士到醫生，再到看護者——他們沒有足夠的時間，也沒有足夠的幫助。所以，我們在醫療環境中提出了“環境智能”這一概念，這是我與斯坦福醫學院的合作伙伴們共同提出的，目的是利用技術爲醫生、護士和看護者提供一雙額外的“眼睛”和“耳朵”，確保患者的安全，或及時發現他們的病情是否迅速惡化。例如，我不想讓大家舉手回答，因爲那會讓我難過，但我知道很多人都有親人或朋友摔倒過。摔倒是一個非常痛苦且代價高昂的傷害，尤其是對老年人而言。我們如何預測這些情況？如何發出警報？如何幫助他們？如何幫助我們的長輩或患者？很難讓人類24小時看護，但計算機和攝像頭可以幫助我們。

環境智能可以監控慢性阻塞性肺疾病（COPD）患者的病情變化，及時提醒醫生患者的氧氣水平是否迅速變化或其他狀況是否惡化。這只是AI作爲“守護天使”的一個例子，幫助看護者更好地照顧病人。在教育領域，個性化學習是一個顯而易見的AI應用，它可以作爲導師或助教，在不同的學習環境中幫助教師。我想你的一位前研究生Andrej Karpathy也在做這方面的工作。我幾天前還見到了他。農業也是一個應用領域，儘管令人難以置信。幾年前，在深度學習革命開始之前，我的一位學生共同創辦了一家創業公司，使用計算機視覺技術檢測田地裡的雜草，以保持作物的健康。我還聽說有養鮭魚的農民使用AI來幫助養殖。AI的正面應用案例數不勝數。

湯姆·卡利：那麼，我們如何培養更多既具備計算機背景又是某個領域專家的人才呢？比如，你的同事達Daphne Koller既有機器學習背景，又在醫療和藥物研發方面有很多學習和研究。似乎那些在計算機和領域專業知識上都有所涉獵的人，會更有機會發現這些有吸引力的應用場景。

李飛飛：這是個非常好的問題，我非常相信跨學科和多學科的合作。即使你不想在AI與計算神經科學、AI與計算生物學，或AI與政治學的交叉點上讀到博士學位，作爲學生，在學習的過程中同時擁抱計算機領域和你的興趣領域（無論是生物學、藝術、政策、化學等）仍然是非常有價值的。所以對學生來說，如果你還在學校或考慮上大學，我認爲湯姆的建議非常寶貴，那就是要擁抱跨學科的學習。從更廣的角度來看，AI是新的計算語言。我曾說過，任何地方有芯片的地方就有AI，或者將來會有AI。從小到一個帶芯片的燈泡，大到機器人和汽車，都將包含AI技術。

因此，考慮到這項技術的重要性，我確實相信我們需要教育我們的孩子和學生，不管他們的背景如何，至少要了解這項技術。即便不學習編程，至少要知道AI是什麼。但最後我要說的是，即使你的興趣不在計算機、編程或AI技術細節上，如果你對藝術、政治學、法律或醫學感興趣，AI也有你的一席之地。因爲領域專家將使用AI來改變你所在的領域，不要害怕從你的視角擁抱它，並用它來創造積極的影響。

湯姆·卡利：有很多人列出了AI潛在的風險，比如你已經提到的一些問題：人們會失去工作、使用深度僞造來干擾選舉、AI會加劇已有的偏見。還有一些更具投機性的擔憂，比如“工具收斂”理論：如果我們給AI一個目標，它可能會爲了實現這個目標而生成子目標，比如複製自己並獲取更多的計算資源。你認爲這些風險中哪一個最值得認真對待？

李飛飛：的確，每一項強大的技術都會造成傷害，或者被用於傷害他人，即使本意是好的，也可能帶來意外的後果，我們必須面對這一點。但如果你讓我選一個風險，作爲一名教育者，我會說，擁抱AI新時代的最大風險是無知。這裡的“無知”不僅僅指不知道如何拼寫“AI”這個詞，而是指即使是一些非常有知識的人，在忽視細節和複雜性的情況下，以誇張的方式傳達AI，這也是一種風險。

如果我們對這項技術過於無知，就會錯失利用它爲我們帶來好處的機會；如果我們對它無知，就無法識別出實際的風險；如果我們散佈無知的信息，就會誤導公衆或政策制定者。因此，很多問題的根源實際上都源於對AI的缺乏瞭解，導致我們沒有正確評估風險，或者以誇張的方式傳達風險，或者完全忽視了問題。

AI治理問題

湯姆·卡利：現在你看到的一些例子中，有哪些是你認爲人們完全誤解了AI？

李飛飛：我認爲任何人如果說“AI是完全好的”，或者“技術是完全好的”，那顯然是一種對歷史的無知。我們回顧人類歷史，任何工具都會被用於有害的目的。所以我們必須承認，如果你的數據集有偏見，那麼在公平性方面就會產生非常不好的影響。如果你不瞭解AI的製作過程，你可能在不知情的情況下與深度僞造共事。

所有這些都是不好的現象，但還有另一個極端的觀點，認爲AI是如此的惡魔般，導致存在的危機論，它會自行復制、關閉電網等。我認爲這種觀點也是誇張的，它忽略了AI並不是一個抽象的概念，它實際上存在於物理系統中。即使是虛擬的軟件或數字程序，它仍然依賴於物理系統，存在於數據中心、在電網中、在人類社會中。因此，很多東西是被綁定的、有上下文的。那些誇張的假設並沒有考慮到這些現實。

湯姆·卡利：不過，提出這些更具投機性的擔憂的人，比如Geoffrey Hinton，他顯然非常瞭解這項技術。你認爲爲什麼這些深度參與技術開發的人，近年來變得更加擔憂了呢？

李飛飛：首先，我非常尊敬Geoffrey 。我自研究生時期就認識他了。實際上，去年我在多倫多與Geoffrey 進行了公開討論，討論的正是這個問題，這段對話現在還在YouTube上。這是Geoffrey 與我，或者說Geoffrey 裡與其他人，極少數公開討論這一話題的例子之一。如果你仔細聽他的發言，他確實在表達擔憂，並指出了潛在的風險。但我們也需要認識到，他的擔憂在某種程度上被放大了。我完全尊重與Geoffrey 的討論，我同意他的觀點：不負責任地使用這項技術將導致非常嚴重的後果。他有他認爲的不負責任的使用方式，我也有我自己的看法。我尊重每個人以自己的方式提出風險，但作爲一名負責的傳播者和教育者，我希望向公衆傳達這樣一個信息：掌控和管理這項技術仍然是我們人類的集體和個體責任。而且不僅時間充裕，我們還有足夠的控制權，不應該輕易放棄這種責任。

湯姆·卡利：你提到了治理，你在將“國家研究雲”這一概念推上政治議程中發揮了重要作用。如果你有機會向下一任總統簡報，他們問你該如何處理AI，你會給出什麼建議？如何既促進AI的益處，又理解並管理其風險？

李飛飛：我可能會重複我去年6月對拜登總統說的話，今年早些時候在國情諮文演講時我也見到了他。我認爲我們的國家需要一個非常健康的AI生態系統。當我說“生態系統”時，我指的是包括公共部門、學術界、創業公司（現在我們稱之爲“小科技公司”），以及“大科技公司”的技術體系。我們是一個強大的民主國家，我相信擁有一個健康的AI生態系統可以發揮我們的優勢，並對世界產生積極的影響。

湯姆·卡利：那我們可以做些什麼來促進這一點呢？

李飛飛：公共投資非常重要。現在我部分參與了私營部門的工作，這讓我更加確信私營部門與公共部門在AI投資上的差距太大了。比如我在斯坦福的計算機視覺實驗室，我們與幾位教授共享，實驗室裡沒有一臺H100 GPU，也沒有A100 GPU。我們仍在使用A6000和其他更老的芯片。而大科技公司卻擁有成千上萬甚至數百萬臺GPU。我認爲，公共部門投資是孕育創新的溫牀，今天我們所取得的許多成就都源於公共部門。如果沒有公共部門的支持，我們今天可能不會站在這裡，我也不會站在這裡。比如，傑弗裡·辛頓幾十年前開始研究人工神經網絡時，也得到了公共部門的支持。ImageNet項目也是從公共部門資金中發展出來的。接下來的三到五年中，很多科學發現會來自公共部門。而且，公共部門帶來的最寶貴的資源是什麼呢？就是人才。所以我們需要投資公共部門。

觀衆提問

問題1：一個問題是關於你的新公司：你們將如何收集足夠的數據來構建一個世界的空間地圖，以支持實時定位？顯然，數據是必不可少的，在沒有數據的情況下無法在空間智能方面取得進展。你對此怎麼看？

李飛飛：我們目前還沒有公開討論細節，因爲我們還沒有準備好。當我們準備好了，會公開討論。我有點好奇這位觀衆已經知道我們正在做什麼，這是他們版本的故事，我暫時不作評論。不過你說得對，AI是由數據驅動的，空間智能絕對是基於像素的，所以大量的像素數據將推動這項技術的發展。

問題2：艾米提到你曾參與的一個項目“AI for All”，她說：“我是一名12歲的初中生，我們可以做些什麼來鼓勵更多女孩學習AI，併爲AI時代做好準備？”

李飛飛：這是個好問題，我認爲每個12歲的孩子都應該被鼓勵去擁抱AI，無論你是女孩還是男孩，無論你是生活在農村還是硅谷。如果你喜歡它，那就去擁抱它。對於艾米來說，我想說的是，當我12歲的時候，AI這個東西還不存在，至少我不知道有AI。我當時喜歡數學和物理，今天我非常感激我的父母和老師對我的支持。所以我要對艾米和所有的學生們說的是，追隨你的激情，追隨你的好奇心，並且保持韌性。如果有負面的聲音，忽略它。有很多人會支持你，從你的父母、老師、朋友到你的榜樣，所以繼續前進，別放棄。

問題3：空間智能除了做早餐，還能解決哪些重要的現實問題呢？

李飛飛：空間智能實際上可以推動很多事情，從創作到設計。多少人希望有一個應用程序，能夠想象傢俱的重新排列？從機器人、增強現實/虛擬現實（AR/VR）到教育、學習、醫療保健、工廠製造等，空間智能可以在這些領域發揮重要作用。這是一項深度普遍的橫向技術，可以影響所有這些領域。

問題4：關於小型模型和AR眼鏡的結合，這是不是你考慮過的領域？

李飛飛：我對新型媒體非常感興趣，雖然還處於早期階段。我們在硅谷，很多人熬夜搶購蘋果的Vision Pro。我非常興奮的是，蘋果稱之爲“空間計算”，因爲當時我已經思考了很多年“空間智能”。空間計算需要空間智能，所以當時我心想“沒錯”。至於眼鏡的形式，或者說是頭戴設備，眼鏡對我來說非常有吸引力。邊緣計算或小型模型也非常令人興奮，小型模型不僅對眼鏡和頭戴設備有用，對邊緣計算、智能設備和機器人也非常有用，尤其是家用機器人。你不能讓機器人揹着一個服務器對吧？所以小型模型有很多用途。

湯姆·卡利：我對多模態模型和智能眼鏡在勞動力培訓中的角色也非常感興趣。我們沒有足夠的電工，而通過耳機AI和智能眼鏡，作爲學徒計劃的一部分，提供實時的、足夠的培訓，可以解決這一問題。

問題5：我們如何解決其他語言（除了英語）在AI中代表性不足的問題？研究社區和公司可以做些什麼？

李飛飛：這是個好問題，這涉及到數據偏見等問題。首先，我認爲每個國家都應該進行公共部門對AI的投資，而這些投資應該與本地文化和語言相關。因此，個體研究人員需要關注這個問題，同時政府和大公司也應該關注這個問題，它們有能力部署大量資源來解決這一問題。英語的主導地位是事實，我們需要意識到這一點。這也回到了我提到的公共部門投資的問題。即使在美國，我們也有很多傑出的研究人員和學生在思考其他語言的問題，但他們目前缺乏數據集和計算資源，所以我們需要解決這個問題。

問題6：哲學性的問題，我想知道你是否可以談談你在斯坦福與人文學科和社會科學領域的合作，並舉一些例子，說明這些領域的學者給你帶來了哪些有趣的見解？

李飛飛：實際上，這是我過去五年裡創立並共同管理這個研究所最有趣的部分之一。斯坦福有八所學院，包括法學院、商學院、醫學院、新成立的可持續發展學院、人文學科和自然科學學院、工程學院等。與我的同事們交流，與學生、研究人員和學者跨學科地合作，真的非常有趣，也非常啓發人心。比如說，和人文學科的同事交流讓我更加理解人類的表達和創造力。這讓我開始思考AI與那些具有深厚創作背景的人之間的關係，特別是在ChatGPT和其他類似工具問世後，從好萊塢編劇罷工到關於藝術家版權的擔憂，再到一些藝術家積極擁抱這項工具，這一切都非常複雜。我自己沒有接受過正式的教育來處理這些問題，但通過和這些人文領域的同事交流，他們教會了我如何思考這些問題。

對於這個技術性很強的觀衆，我想說，技術人員真的需要傾聽並與人文學者和社會科學家交流。無論是在你的工作環境中，還是在法律、產品、市場營銷等不同的職能領域，你都可以受益於這種跨領域的合作。技術並不是孤立存在的，它需要複雜的人類努力才能使其變得有益、善良。所以，帶着謙遜和尊重，給予對方應有的尊嚴，這是我們建立溝通橋樑的最根本的事情。

問題7：你覺得在可解釋性和可解釋AI領域取得進展有多重要？

李飛飛：這是個好問題。總體而言，這是重要的，但我認爲我們需要更細緻地看待它。比如說，即使是可解釋性也有不同的層次。大家都知道泰諾（Tylenol）對發燒和頭痛有效，但你能解釋它的分子作用路徑嗎？實際上，科學家到今天還沒有完全搞清楚細節。但你不會說泰諾是無法解釋的藥物，因爲圍繞藥物開發有一整套體系，包括監管措施和審批流程，這些讓公衆對其有足夠的解釋，從而產生信任感。這是一種可解釋性的方式。另一種可解釋性，比如你從Lafayette開車到這裡時，使用了谷歌地圖。它會給你幾個選項，比如某條路線收費但能節省4分鐘，另一條路線可能更擁堵。雖然谷歌地圖不會向你解釋從A點到B點的具體算法，但你作爲用戶會覺得有足夠的解釋來做出選擇。

在醫學中，我們大多數人都不是醫生，無法理解治療的詳細過程，但醫生會用某種人類語言向你解釋治療方案。我花時間舉這些例子是爲了說明，可解釋性的重要性取決於使用場景，同時也取決於可解釋性的定義。有時候我們不需要分子路徑級別的解釋，而是需要一種不同層次的解釋。因此，回答你的問題：可解釋性很重要，但它取決於使用場景，不同的場景需要不同的解釋方式。

問題8：AI可以從神經科學中學到什麼？卷積神經網絡至少在某種程度上是受人類視覺系統的啓發；人們還研究了多巴胺獎勵機制，它爲強化學習提供了靈感。你認爲還有哪些領域可以讓神經科學和AI進行合作？

李飛飛：當然。大自然已經找到了低功耗計算的秘訣，因爲我們的大腦只消耗20瓦電力，甚至比房間裡的燈泡還要少。當我們在斯坦福成立HAI時，神經科學就是三大研究支柱之一。我認爲神經科學和AI之間的跨學科合作對推動這兩個領域的進步至關重要。例如，兒童的早期發展，尤其是小孩的好奇心驅動的學習模式如何能被應用到AI系統中？這是一種啓發。

我們還知道，反向傳播是對大腦中兩個神經元之間複雜交流的非常簡化的翻譯。除了突觸連接，大腦中的樹突連接實際上包含着非常複雜的電化學過程。今天的機器學習算法還沒有將這些複雜的神經傳遞機制納入其中。反過來，神經科學家們無論是在使用動物模型還是細胞模型，正在收集大量數據，而AI和機器學習正成爲他們發現新科學的有力工具。最後，我的實驗室還在與心理學家合作，使用非侵入性的腦電波（EEG）來驅動機器人，這完全是非侵入性的。因此，這兩個領域之間的交叉合作是非常多的，對我來說，這是最令人興奮的跨學科研究領域之一。

湯姆·卡利：如果我們不限制時間，觀衆有足夠的問題可以讓我們聊的很晚。不過，請大家與我一起感謝李飛飛教授的精彩採訪。謝謝！

視頻鏈接：https://www.youtube.com/watch?v=JgQ1FJ_wow8&t=611s

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料範圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每週更新不少於100篇世界範圍最新研究資料。

萬字獨家視頻專訪：斯坦福李飛飛教授回顧20年AI征程,並解讀未來每份工作都需要AI技能

相關資訊