SemiAnalysis創始人深度對話:AI新時代,英偉達會不會被挑戰?

英偉達的市場份額到底有多大?公司的競爭優勢到底在哪?AMD、谷歌、亞馬遜的機會在哪?數據短缺是僞命題嗎?行業資本開支真的沒問題嗎?轉折點在哪?

近日,Semi Analysis創始人兼首席分析師迪倫·帕特爾(Dylan Patel)、硅谷著名科技投資人比爾.柯爾利(Bill Gurley)、布拉德·格斯特納 (Brad Gerstner)展開三方對談,就AI芯片目前的現狀,英偉達的競爭優勢還能持續多久,數據短缺是否是僞明天,以及AI資本開支還能持續多久進行了深入的討論。

以下是對談核心要點:

以下爲對談全文,由AI進行翻譯

主持人:迪倫,歡迎來到我們的節目。今天我們要深入探討一個今年一直在討論的話題,那就是計算機世界正在發生的根本性變化。比爾,你先來給大家介紹一下迪倫吧。

比爾:好的,我們很高興邀請到 SemiAnalysis 的迪倫・帕特爾。迪倫迅速建立起了全球半導體行業最受尊敬的研究團隊之一。今天我們想深入探討迪倫在技術層面所瞭解的架構、芯片縮放趨勢、全球市場的主要參與者、供應鏈等知識,並將其與我們聽衆關心的商業問題聯繫起來。我希望能對與人工智能熱潮相關的半導體活動進行一個階段性的總結,並嘗試從整體上把握其發展趨勢。

迪倫:很高興來到這裡。我小時候,我的 Xbox 壞了,我父母是移民,我在佐治亞州的農村長大,沒什麼事可做,就只能搗鼓電子產品。我打開 Xbox,短路了溫度傳感器,然後修好了它。從那時起,我就對半導體產生了濃厚的興趣,開始閱讀半導體公司的財報並投資,還深入研究技術相關的內容。

主持人:能給我們簡單介紹一下 SemiAnalysis 嗎?

迪倫:我們是一家半導體和人工智能研究公司,爲超大規模數據中心、大型半導體私募股權公司和對衝基金等提供服務。

我們銷售全球數據中心的相關數據,包括每個季度的功率、建設進展等;跟蹤全球約 1500 家晶圓廠(但實際關鍵的約 50 家);還提供供應鏈相關數據,如電纜、服務器、電路板、變壓器等設備的數據,並進行預測和諮詢服務。

不考慮谷歌,全球98%的AI工作都使用英偉達芯片

比爾:迪倫,我們都知道英偉達在 AI 芯片領域佔據主導地位,你認爲目前全球 AI 工作量中有多少是在英偉達芯片上運行的呢?

迪倫:如果不考慮谷歌,佔比超過 98%。但如果把谷歌算進去,大約是 70%。因爲谷歌有很大一部分 AI 工作量,尤其是生產性工作量,是在自己的芯片上運行的。

比爾:你說的生產性工作量是指那些能產生收益的業務,比如谷歌搜索和谷歌的其他大型 AI 驅動業務嗎?

迪倫:沒錯。谷歌的非大語言模型(LLM)和其他生產性工作負載運行在其內部自研芯片上。

實際上,谷歌早在 2018 - 2019 年就在搜索工作負載中使用了 Transformer 技術,比如 BERT 就是當時非常知名且流行的 Transformer 模型之一,多年來一直在其生產搜索工作負載中運行。

三項優勢結合讓英偉達目前主導市場

比爾:那回到英偉達,爲什麼它如此主導市場呢?

迪倫:可以把英偉達比作三頭龍。全球大多數半導體公司在軟件方面表現不佳,但英偉達除外。

在硬件方面,英偉達也比大多數公司更出色,他們能夠率先採用新技術,並以極快的速度將芯片從設計推向部署。此外,在網絡方面,他們收購了 MELLONOX,極大地提升了網絡能力。這三個方面的優勢相結合,使得其他半導體公司難以單獨與之競爭。

比爾:你之前寫過一篇文章,幫助大家理解了英偉達這些現代尖端部署的複雜性,包括機架、內存、網絡和規模等方面,能再給我們簡單介紹一下嗎?

迪倫:好的。當我們看 GPU 時,運行一個 AI 工作負載通常需要多個芯片協同工作,因爲模型的規模已經遠超單個芯片的能力。

英偉達的 NVLink 架構能夠很好地將多個芯片聯網,但有趣的是,谷歌和博通早在英偉達之前就合作構建了類似的系統架構,比如谷歌在 2018 年就用 TPU 構建了類似系統。

谷歌雖然在軟件和計算元素方面有自己的理解,但在芯片封裝設計和網絡等困難領域需要與其他供應商合作。

現在,英偉達推出了 Blackwell 系統,這是一個包含多個 GPU 的機架,重達三噸,有數千根電纜,非常複雜。

而競爭對手如 AMD 等,最近也通過收購來進入系統設計領域,因爲構建一個能夠協同工作、冷卻良好、網絡可靠的多芯片系統是一個極具挑戰性的問題,半導體公司通常缺乏相關工程師。

比爾:那你認爲英偉達在哪些方面進行了增量差異化投資呢?

迪倫:英偉達主要在供應鏈方面進行了大量投資。他們必須與供應鏈緊密合作,以開發下一代技術並率先推向市場。

例如,在網絡、光學、水冷和電力傳輸等領域,英偉達不斷推出新技術,以保持其競爭優勢。他們的節奏非常快,每年都有很多變化,像 Blackwell、Rubin 等產品的推出。如果他們停滯不前,就會面臨競爭壓力,因爲其他競爭對手也在努力追趕。

比爾:如果英偉達停滯不前,他們在哪些方面可能會面臨競爭?市場上其他替代品需要具備哪些條件才能佔據更多的工作負載份額呢?

迪倫:對於英偉達來說,其主要客戶在 AI 方面的支出巨大,他們有足夠的資源來研究如何在其他硬件上運行模型,尤其是在推理方面。

雖然英偉達在推理軟件方面的優勢相對較小,但他們的硬件性能目前是最好的,這意味着更低的資本成本、運營成本和更高的性能。如果英偉達停止進步,其性能優勢將不再增長,其他競爭對手就有機會。

例如,現在隨着 Blackwell 的推出,英偉達不僅在推理性能上比以前的產品快 10 - 15 倍(針對大型模型進行了優化),還降低了利潤率以應對競爭,他們計劃每年將性能提升 5 倍以上,這是一個非常快的速度。同時,AI 模型本身也在不斷改進,成本也在下降,這將進一步刺激需求。

比爾:你提到軟件在訓練和推理中的作用不同,能詳細解釋一下嗎?

迪倫:很多人把英偉達的軟件簡單地稱爲 Kuta,但實際上它包含很多層次。

在訓練方面,用戶通常依賴英偉達的軟件性能,因爲研究人員不斷嘗試新的方法,沒有太多時間去優化性能。

而在推理方面,像微軟這樣的公司,會在有限的幾個模型上進行部署,並且每六個月左右更新一次模型,他們可以投入大量工程師來優化這些模型在其他硬件上的運行性能。例如,微軟已經在 AMD 等公司的硬件上部署了 GPT 風格的模型。

主持人:我們之前提到過一張圖表,顯示未來四年將有一萬億美元的新 AI 工作量,以及一萬億美元的數據中心替換工作量,你對此怎麼看?有人認爲人們不會用英偉達的 GPU 來重建 CPU 數據中心,你怎麼迴應這種觀點?

迪倫:英偉達長期以來一直在推動非 AI 工作負載使用加速器,比如專業可視化領域(如 Pixar 製作電影)、西門子工程應用等都使用了 GPU。

雖然這些在 AI 領域相比只是一小部分,但確實存在應用。關於數據中心替換,雖然 AI 發展迅速,但傳統工作負載(如網絡服務、數據庫)並不會因此停止或放緩。數據中心的供應鏈較長,建設週期也長,這是一個現實問題。

例如,英特爾的 CPU 在過去幾年進展緩慢,而 AMD 的出現提供了更高性能的選擇,許多亞馬遜數據中心的舊英特爾 CPU 服務器已經使用多年,現在可以用性能更高的新服務器(如 128 核或 192 核)來替換,這樣不僅能提升性能,還能在相同功耗下減少服務器數量,從而爲 AI 服務器騰出空間。

所以,雖然有數據中心替換的情況,但市場整體仍在增長,只是 AI 的發展促使了這種行爲,因爲企業需要更多的計算能力來支持 AI 應用。

主持人:這讓我想起上週薩沙在節目中提到的,他說他們受到數據中心和電力的限制,而不是芯片的限制,你覺得這與你剛剛的解釋有什麼關聯嗎?

迪倫:我認爲薩沙的觀點強調了數據中心和電力在當前的瓶頸地位,這與芯片供應情況不同。隨着數據中心的建設和電力供應的緊張,企業需要更加合理地規劃資源,這也解釋了爲什麼他們會採取一些措施,如從加密貨幣挖礦公司獲取電力資源,或者延長舊服務器的折舊週期等。

如果沒有數據,可以創造合成數據改進模型

主持人:在討論替代英偉達的方案之前,我們先談談你在文章中提到的預訓練和縮放辯論吧。伊利亞特說數據是 AI 的 “化石燃料”,我們已經消耗了大部分,預訓練的巨大收益不會再重複,你怎麼看這個觀點?

迪倫:預訓練縮放定律相對簡單,增加計算資源可以提升模型性能,但這涉及到數據和參數兩個維度。

當數據耗盡時,雖然可以繼續擴大模型規模,但收益可能會減少。不過,目前我們對視頻數據的利用還非常有限,這是一個誤解。實際上,文本是目前最有效的數據領域,但視頻數據蘊含的信息更多。此外,預訓練只是模型訓練的一部分,推理時間計算也很重要。如果數據耗盡,我們可以通過創造合成數據來繼續改進模型,例如 OpenAI 等公司正在嘗試的方法,通過讓模型生成大量數據,然後進行功能驗證,篩選出有效的數據用於訓練,從而提高模型的性能。雖然這種方法目前還處於早期階段,投入的資金相對較少,但它爲模型改進提供了新的方向。

主持人:從投資的角度來看,英偉達備受關注。但如果預訓練的收益已經大部分被獲取,爲什麼大家還在建造更大的集羣呢?

迪倫:雖然預訓練的一次性巨大收益可能已經過去,但通過增加計算資源,我們仍然可以獲得一定的收益,尤其是在競爭激烈的環境下,企業希望通過提升模型性能來保持競爭力。

此外,模型與競爭對手模型之間的對比也促使企業不斷投入。雖然從投資回報率來看,繼續擴大規模可能是對數級別的昂貴,但仍然可能是一個理性的決策,因爲收益仍然存在,只是獲取難度增加了。而且,隨着合成數據生成等新方法的出現,模型改進的速度可能會加快,這也爲企業繼續投資提供了動力。

主持人:那在哪些領域合成數據最有效呢?能舉例說明嗎?

迪倫:合成數據在能夠進行功能驗證的領域最有效,比如在谷歌的服務中,他們有大量的單元測試來確保系統正常運行,這些單元測試可以用來評估 LLM 生成的輸出是否正確。

在數學、工程等領域,輸出可以通過明確的標準進行評估,而在一些主觀領域,如藝術、寫作風格、談判技巧等,很難進行功能驗證,因爲這些領域的評判標準比較主觀。例如,在圖像生成領域,很難說哪張圖像更美,因爲這取決於個人喜好;而在數學計算或工程設計中,可以明確判斷輸出是否正確。

華爾街低估了大型數據中心的資本支出

主持人:你從超大規模數據中心那裡聽到了什麼?他們都說明年資本支出(capex)會增加,正在建造更大的集羣,這是真的嗎?

迪倫:根據我們的跟蹤和分析,華爾街對 capex 的估計通常過低。我們跟蹤全球每個數據中心,發現微軟、Meta、亞馬遜等公司在數據中心容量上的支出非常大。

他們簽署了明年的數據中心租賃協議,預計雲收入將加速增長,因爲他們目前受到數據中心容量的限制。這表明他們相信通過擴大規模可以在競爭中獲勝,所以纔會不斷投入。

主持人:你之前提到的關於預訓練的大規模集羣建設,如果預訓練趨勢發生變化,他們在推理方面的建設會有什麼變化嗎?

迪倫:在訓練神經網絡時,正向傳播用於生成數據,反向傳播用於更新權重,而在合成數據生成、評估輸出和訓練模型的新範式中,正向傳播的計算量大幅增加,因爲需要生成大量可能性,而反向傳播的計算量相對較少,因爲只在少數有效數據上進行訓練。這意味着在訓練過程中有大量的推理計算,實際上訓練中的推理計算量比更新模型權重的計算量還要大。

此外,在訓練模型時,是否需要所有組件都在同一位置取決於具體情況。

例如,微軟在不同地區建設多個數據中心,因爲他們發現可以將推理工作負載分配到不同數據中心,同時在其他地方更新模型,這樣可以更有效地利用資源。因此,預訓練的範式並沒有放緩,只是每一代的改進成本呈對數增加,但企業正在尋找其他方法來降低成本,提高效率。

英偉達不是2000年的思科

主持人:有人將英偉達與思科在 2000 年的情況進行比較,你怎麼看?

迪倫:這種比較存在一些不公平之處。思科的收入很大一部分來自私人 / 信貸投資於電信基礎設施建設,而英偉達的收入來源與此不同,其私人 / 信貸投資佔比較小,如 CoreWeave 由微軟支持。

此外,在互聯網泡沫時期,進入該領域的私人資本規模遠大於現在,雖然現在風險投資市場看似活躍,但實際上私人市場(如中東主權財富基金)的資金尚未大量進入。而且,與思科當時相比,現在這些盈利公司的資本來源、正現金流以及投資的理性程度都有所不同。英偉達目前的市盈率爲 30,與思科當時的 120 相比還有很大差距,因此不能簡單地進行類比。

推理時間推理(inference time reasoning)是擴展智能的新方向

主持人:你提到推理時間推理是擴展智能的新方向,並且計算密集度比預訓練更高,能詳細解釋一下嗎?

迪倫:預訓練可能會遇到收益遞減或成本過高的問題,但合成數據生成和推理時間計算成爲新的發展方向。

推理時間計算聽起來不錯,因爲不需要在訓練模型上花費更多成本,但實際上存在很大的權衡。以 GPT - 4o 爲例,它在推理時會生成大量數據,但最終輸出給用戶的只是其中一部分,在這個過程中,模型需要消耗大量計算資源。

例如,在處理用戶請求時,模型可能會生成數千箇中間結果(令牌),但最終只輸出幾百個給用戶。這意味着計算成本大幅增加,不僅因爲生成的令牌數量增加,還因爲在處理這些令牌時,需要更多的內存來存儲上下文信息(如 KV 緩存),這導致服務器能夠同時處理的用戶請求數量減少,從而增加了每個用戶的成本。

從成本角度看,對於微軟這樣的公司,如果其推理收入爲 100 億美元,毛利率爲 50 - 70%,成本爲幾十億美元,當使用像 GPT - 4o 這樣的模型時,由於推理計算成本增加,其成本可能會顯著上升,儘管模型性能更好,可以收取更高費用,但成本的增加幅度可能超過收入的增加幅度。

GPT - 4o模型的企業級需求被低估了

主持人:那市場對 GPT - 4o 這樣的模型的企業級需求是被高估還是低估了呢?

迪倫:GPT - 4o 目前還處於早期階段,人們對它的理解和應用還不夠深入。

但從目前一些匿名基準測試來看,有很多公司(如谷歌、Anthropic 等)正在開發推理模型,並且他們看到了通過增加計算資源來提升模型性能的明確路徑。這些公司在推理方面的投入相對較少,目前還處於起步階段,但他們有很大的提升空間,預計在未來 6 個月到 1 年,在某些具有功能驗證的基準測試中,模型性能將有巨大提升。因此,市場對這類模型的需求潛力巨大,但目前還難以準確評估。

主持人:回顧互聯網浪潮,當時很多創業公司最初依賴甲骨文和太陽公司的技術,但五年後情況發生了變化。在 AI 芯片領域,這種情況會發生嗎?

迪倫:目前 GPT - 4o 非常昂貴,但如果降低模型規模,成本會大幅下降。

例如,從 GPT - 4o 到 Llama 7b,成本可以降低很多。對於小型模型,推理相對容易,可以在單個芯片上運行,這導致市場競爭激烈,許多公司提供基於 Llama 等模型的 API 推理服務,價格競爭激烈,利潤率較低。

相比之下,像微軟這樣使用 OpenAI 模型的公司,毛利率較高(50 - 70%),因爲他們擁有高性能模型,並且有企業或消費者願意爲其支付高額費用。

但隨着更多公司進入市場,模型的差異化變得更加重要,只有擁有最好的模型,並且能夠找到願意爲其付費的企業或消費者,才能在競爭中脫穎而出。因此,市場正在快速篩選,最終可能只有少數幾家公司能夠在這個領域競爭。

谷歌、亞馬遜芯片各自有優劣

主持人:那在這些競爭公司中,AMD 的情況如何呢?

迪倫:AMD 在芯片工程方面表現出色,但在軟件方面存在明顯不足。他們缺乏足夠的軟件開發人員,也沒有投入資金建設 GPU 集羣來開發軟件,這與英偉達形成鮮明對比。

此外,AMD 一直專注於與英特爾競爭,缺乏系統級設計經驗,雖然收購了 ZT 系統公司,但在大規模數據中心的系統架構設計方面仍落後於英偉達。

超大規模數據中心客戶(如 Meta 和微軟)在幫助 AMD 改進軟件和理解模型開發、推理經濟等方面,但 AMD 仍無法與英偉達在同一時間表上競爭。預計 AMD 明年在微軟和 Meta 等客戶中的 AI 收入份額將下降,但仍能從市場中獲利,只是不會像英偉達那樣取得巨大成功。

主持人:谷歌的 TPU 情況呢?它似乎是僅次於英偉達的選擇。

迪倫:谷歌的 TPU 在系統和基礎設施方面有其獨特之處。單個 TPU 的性能雖然不錯,但更重要的是其系統設計。谷歌與博通合作構建的 TPU 系統,在芯片互連、網絡架構等方面具有競爭力,甚至在某些方面優於英偉達。

此外,谷歌多年來採用水冷技術,提高了系統的可靠性,而英偉達直到最近才意識到需要水冷技術。

然而,谷歌的 TPU 在商業上的成功相對有限,主要原因包括其軟件不夠開放,很多內部使用的軟件(如 DeepMind 使用的軟件)未向谷歌雲用戶提供;

定價方面,雖然官方定價較高,但實際談判後價格仍缺乏競爭力,相比其他雲服務提供商(如甲骨文、微軟、亞馬遜等),谷歌的 TPU 價格沒有優勢;

此外,谷歌將大量 TPU 用於內部服務(如搜索、Gemini 應用等),外部租用市場份額較小,主要客戶爲蘋果,且蘋果租用 TPU 可能與對英偉達的態度有關(可能存在競爭關係,但具體原因暫未提及)。

主持人:那亞馬遜呢?能像介紹谷歌 TPU 那樣詳細介紹一下亞馬遜的芯片嗎?

迪倫:亞馬遜的芯片可以被稱爲 “亞馬遜基礎版 TPU”。它在一些方面具有成本效益優勢,例如使用更多的硅和內存,網絡能力與 TPU 有一定可比性,但在效率方面存在不足,如使用更多的有源電纜(與博通合作的谷歌 TPU 使用無源電纜),硅片面積使用效率較低等。

然而,亞馬遜通過降低成本,在 HBM 內存帶寬和每美元成本方面具有優勢,其芯片價格遠低於英偉達,雖然在技術指標上(如內存、帶寬等)低於英偉達,但對於一些對成本敏感的應用場景具有吸引力。

亞馬遜與 Anthropic 合作建立了一個包含 40 萬個芯片的超級計算機系統,他們相信大規模的芯片部署對於推理和模型改進是有用的,儘管在技術上可能不是最先進的,但成本效益使其成爲亞馬遜的一個合理選擇。

明年資本開支明確,26年後存在不確定性

主持人:展望 2025 - 2026 年,你對半導體市場有什麼看法?比如博通最近股價上漲,英偉達股價波動,你認爲市場會如何發展?

迪倫:博通在定製 ASIC 領域取得了一些成果,例如贏得了多個定製 ASIC 訂單,包括谷歌等公司的訂單。谷歌正在努力提升其定製芯片的性能,尤其是在推薦系統方面。此外,像 OpenAI 等公司也在開發自己的芯片,蘋果也有部分芯片與博通合作生產。這些發展趨勢表明,市場競爭將更加激烈。

從市場整體來看,超大規模數據中心計劃在明年大幅增加支出,這將帶動整個半導體生態系統(包括網絡設備供應商、ASIC 供應商、系統供應商等)的發展。

然而,2026 年的情況存在一定的不確定性。

一方面,模型性能是否能夠持續提升將是關鍵因素。如果模型性能提升速度放緩,可能會導致市場出現調整,因爲目前市場的增長在很大程度上依賴於模型性能的不斷進步以及由此帶來的對計算資源的需求增長。

另一方面,資本投入也是一個重要變量。目前中東主權財富基金、新加坡、北歐和加拿大養老基金等尚未大規模進入該市場,但如果他們未來決定投入大量資金,將對市場產生重大影響。

此外,新雲市場將面臨整合。目前我們跟蹤的約 80 家新雲服務提供商中,只有少數(5 - 10 家)可能在競爭中存活下來。其中 5 家是主權雲服務提供商,另外 5 家左右是具有市場競爭力的企業。

當前,GPU 租賃市場價格變化迅速,例如英偉達 H100 的租賃價格大幅下降,不僅新雲服務提供商之間的競爭激烈,亞馬遜等大型雲服務提供商的按需 GPU 定價也在快速下降。企業購買 GPU 集羣的比例仍然相對較低,他們更傾向於將 GPU 計算需求外包給新雲服務提供商,但隨着市場整合,這種情況可能會發生變化。

對於英偉達來說,雖然其面臨競爭,但如果能夠繼續保持技術領先,推出性能更優、成本更低的產品,仍然有機會在市場中佔據主導地位。例如,他們即將推出的產品成本雖然高於前代產品,但通過優化性能和調整價格策略,仍有可能實現增長。然而,如果市場需求未能如預期增長,或者出現更具競爭力的替代品,英偉達的收入可能會受到影響。

主持人:非常感謝迪倫今天的分享,這讓我們對半導體行業在 AI 領域的發展有了更深入的瞭解。希望在未來我們能繼續關注這個領域的動態,也期待看到各公司在這個充滿機遇和挑戰的市場中的表現。再次感謝!

迪倫:謝謝,很高興能在這裡分享我的觀點。

主持人:提醒一下大家,以上內容僅代表我們的觀點,不構成投資建議。