☰

“十萬卡集羣”要來了，科技巨頭競逐AI算力極限

“萬卡集羣”被業界視作是這一輪大模型競賽的“入場券”，現在，“十萬卡集羣”成爲科技巨頭們競逐的新高地。

“很快就會有更多的10萬卡集羣出現。”9月25日，百度集團執行副總裁沈抖在百度智雲大會上這樣說。

他提到，過去一年已經感受到客戶的模型訓練需求猛增，需要的集羣規模越來越大，與此同時，大家對模型推理成本的持續下降的預期也越來越高。這些都對GPU管理的穩定性和有效性提出了更高要求。當天，百度升級AI異構計算平臺百舸4.0，具備了10萬卡集羣部署和管理能力。

事實上，這一輪生成式人工智能爆發的背後，一定程度上歸功於“大力出奇跡”，業界通過不斷增加算力堆疊，實現大模型性能的飛躍。萬卡集羣也因此被業界視作是進入AI核心圈的“標配”。但現在，即便是萬卡也不能夠完全滿足需求。不僅百度，越來越多的行業巨頭正在佈局十萬卡集羣，以追求更高的計算效率和大模型性能。

不久前的雲棲大會上，阿里雲展示了圍繞 AI 時代的新基建，其中單網絡集羣已拓展至十萬卡級別，正在從芯片、服務器、網絡、存儲到散熱、供電、數據中心等方方面面，重新打造面向未來的 AI 先進基礎設施。

9月初時馬斯克在社交媒體上宣佈，旗下AI初創公司xAI 打造的超級 AI 訓練集羣 Colossus 已經正式上線，搭建用時 122 天，共有 10 萬塊英偉達 H100 GPU 加速卡，而在未來幾個月將再翻倍增加10萬塊GPU，其中5萬爲更先進的 H200。

更早之前，Meta首席執行官馬克·扎克伯格曾在年初宣佈計劃購買35萬塊英偉達H100 GPU，將Meta的算力擴展到相當於60萬塊英偉達H100 GPU的水平。OpenAI沒有透露過確切的GPU使用量，但業界猜測接近十萬塊。百川智能CEO王小川曾對第一財經記者透露，自己此前在硅谷走訪時，OpenAI正在設計能夠將1000萬塊GPU連在一起的計算模型，“這種想法像登月一樣。”

“今天一家通用大模型公司如果沒有萬卡，就不好說自己是大模型公司了。” 香港科技大學校董會主席沈向洋更在不久前調侃：“談卡傷感情，沒卡沒感情”。而摩爾線程CEO張建中也在接受記者採訪時表示，在AI主戰場，萬卡是最低標配，因爲大模型競爭激烈，縮短訓練時間是企業的基本訴求。

算力是推動大模型發展的核心動力。但從千卡到萬卡再到十萬卡，不是算力的簡單堆疊。在科技巨頭競逐AI算力極限背後，沈向洋指出，從2012年開始，每年大模型需要的算力都在增長，一開始幾年是六七倍的增長，最近幾年穩定下來，每年是四倍左右的增長。而隨着大模型的參數越來越大，大模型對算力的要求已經由線性增長進化到平方向的增長。

但構建十萬卡集羣是一項複雜的系統工程，不僅意味着算力的指數級增長，還涉及複雜的技術和運營挑戰。這些集羣需要解決高效能計算、高能耗管理、高密度機房設計、高穩定性訓練等一系列問題。而且即便智算中心已配備了超大規模的集羣，最終能否將這些算力有效釋放，還取決於算法、軟件架構的優化與調度能力。

沈抖對包括第一財經在內的媒體表示，管理10萬卡的集羣與管理萬卡集羣有本質不同。要部署10萬卡這麼大規模的集羣，光是在物理層面就要佔據大概10萬平方米的空間，相當於14個標準足球場的面積。在能耗方面，這些服務器一天就要消耗大約300萬千瓦時的電力，相當於北京市東城區一天的居民用電量。

這種對於空間和能源的巨大需求，遠遠超過了傳統機房部署方式所能承載的範疇，這意味着科技巨頭不得不考慮跨地域的機房部署，這帶來了網絡層面的巨大挑戰。

同時，鉅額的建設、運營成本是一大難題。沈抖告訴記者，建一個萬卡集羣，單是GPU的採購成本就高達幾十億。

此前Anthropic首席執行官也表示，當前AI模型訓練成本是10億美元，未來三年，這個數字可能會上升到100億美元甚至1000億美元。

隨着集羣規模的擴大，如何高效利用每一塊GPU的算力成爲關鍵挑戰。一位業內人士告訴記者，萬卡集羣已經面臨卡間和節點間的互聯網絡、軟件和硬件的適配調優等問題，而十萬卡集羣則需要更精細化的設計和優化，構建超高精度和高可靠性的網絡，包括引入新型芯片設計、超節點技術、跨節點互聯網絡技術等。

“你本身的集羣調度效率怎麼樣？調度效率有時候會被大家忽略掉，超大規模的集羣不是你的卡每時每刻都在用。大模型大規模的參數，在超大規模集羣裡面怎麼樣做模型的拆分，才能真正讓算力有效發揮出來，這是非常關鍵的。”有AI芯片從業者這樣表示。

還有一大挑戰就是穩定性問題。在如此大規模的集羣上，運維的複雜性急劇增加。硬件不可避免地會出故障，而規模越大，出故障的概率就越高。業界常常拿Meta訓練Llama模型舉例，該模型用的是1.6萬卡算力集羣，大概每隔兩三個小時整個訓練任務就要因此重新開始，回到上一個Checkpoint（檢查點）。“如果推演到10萬卡，意味着每30分鐘訓練就要中斷一次，有效訓練時長佔比會非常低。”沈抖告訴記者。

他稱，在這些故障中，絕大多數是由GPU引起的。其實GPU是一種很敏感的硬件，連中午天氣溫度的波動，都會影響到GPU的故障率。

“這些挑戰迫使我們重新思考如何構建、管理和維護這樣龐大而複雜的GPU集羣，屏蔽硬件層的複雜性，爲大模型落地的全流程提供一個簡單、好用的算力平臺，讓用戶能夠更容易地管理GPU算力、低成本地用好算力。”沈抖告訴記者。

“十萬卡集羣”要來了，科技巨頭競逐AI算力極限

相關資訊