“十萬卡集羣”要來了,科技巨頭競逐AI算力極限

“萬卡集羣”被業界視作是這一輪大模型競賽的“入場券”,現在,“十萬卡集羣”成爲科技巨頭們競逐的新高地。

“很快就會有更多的10萬卡集羣出現。”9月25日,百度集團執行副總裁沈抖在百度智雲大會上這樣說。

他提到,過去一年已經感受到客戶的模型訓練需求猛增,需要的集羣規模越來越大,與此同時,大家對模型推理成本的持續下降的預期也越來越高。這些都對GPU管理的穩定性和有效性提出了更高要求。當天,百度升級AI異構計算平臺百舸4.0,具備了10萬卡集羣部署和管理能力。

事實上,這一輪生成式人工智能爆發的背後,一定程度上歸功於“大力出奇跡”,業界通過不斷增加算力堆疊,實現大模型性能的飛躍。萬卡集羣也因此被業界視作是進入AI核心圈的“標配”。但現在,即便是萬卡也不能夠完全滿足需求。不僅百度,越來越多的行業巨頭正在佈局十萬卡集羣,以追求更高的計算效率和大模型性能。

不久前的雲棲大會上,阿里雲展示了圍繞 AI 時代的新基建,其中單網絡集羣已拓展至十萬卡級別,正在從芯片、服務器、網絡、存儲到散熱、供電、數據中心等方方面面,重新打造面向未來的 AI 先進基礎設施。

9月初時馬斯克在社交媒體上宣佈,旗下AI初創公司xAI 打造的超級 AI 訓練集羣 Colossus 已經正式上線,搭建用時 122 天,共有 10 萬塊英偉達 H100 GPU 加速卡,而在未來幾個月將再翻倍增加10萬塊GPU,其中5萬爲更先進的 H200。

更早之前,Meta首席執行官馬克·扎克伯格曾在年初宣佈計劃購買35萬塊英偉達H100 GPU,將Meta的算力擴展到相當於60萬塊英偉達H100 GPU的水平。OpenAI沒有透露過確切的GPU使用量,但業界猜測接近十萬塊。百川智能CEO王小川曾對第一財經記者透露,自己此前在硅谷走訪時,OpenAI正在設計能夠將1000萬塊GPU連在一起的計算模型,“這種想法像登月一樣。”

“今天一家通用大模型公司如果沒有萬卡,就不好說自己是大模型公司了。” 香港科技大學校董會主席沈向洋更在不久前調侃:“談卡傷感情,沒卡沒感情”。而摩爾線程CEO張建中也在接受記者採訪時表示,在AI主戰場,萬卡是最低標配,因爲大模型競爭激烈,縮短訓練時間是企業的基本訴求。

算力是推動大模型發展的核心動力。但從千卡到萬卡再到十萬卡,不是算力的簡單堆疊。在科技巨頭競逐AI算力極限背後,沈向洋指出,從2012年開始,每年大模型需要的算力都在增長,一開始幾年是六七倍的增長,最近幾年穩定下來,每年是四倍左右的增長。而隨着大模型的參數越來越大,大模型對算力的要求已經由線性增長進化到平方向的增長。

但構建十萬卡集羣是一項複雜的系統工程,不僅意味着算力的指數級增長,還涉及複雜的技術和運營挑戰。這些集羣需要解決高效能計算、高能耗管理、高密度機房設計、高穩定性訓練等一系列問題。而且即便智算中心已配備了超大規模的集羣,最終能否將這些算力有效釋放,還取決於算法、軟件架構的優化與調度能力。

沈抖對包括第一財經在內的媒體表示,管理10萬卡的集羣與管理萬卡集羣有本質不同。要部署10萬卡這麼大規模的集羣,光是在物理層面就要佔據大概10萬平方米的空間,相當於14個標準足球場的面積。在能耗方面,這些服務器一天就要消耗大約300萬千瓦時的電力,相當於北京市東城區一天的居民用電量。

這種對於空間和能源的巨大需求,遠遠超過了傳統機房部署方式所能承載的範疇,這意味着科技巨頭不得不考慮跨地域的機房部署,這帶來了網絡層面的巨大挑戰。

同時,鉅額的建設、運營成本是一大難題。沈抖告訴記者,建一個萬卡集羣,單是GPU的採購成本就高達幾十億。

此前Anthropic首席執行官也表示,當前AI模型訓練成本是10億美元,未來三年,這個數字可能會上升到100億美元甚至1000億美元。

隨着集羣規模的擴大,如何高效利用每一塊GPU的算力成爲關鍵挑戰。一位業內人士告訴記者,萬卡集羣已經面臨卡間和節點間的互聯網絡、軟件和硬件的適配調優等問題,而十萬卡集羣則需要更精細化的設計和優化,構建超高精度和高可靠性的網絡,包括引入新型芯片設計、超節點技術、跨節點互聯網絡技術等。

“你本身的集羣調度效率怎麼樣?調度效率有時候會被大家忽略掉,超大規模的集羣不是你的卡每時每刻都在用。大模型大規模的參數,在超大規模集羣裡面怎麼樣做模型的拆分,才能真正讓算力有效發揮出來,這是非常關鍵的。”有AI芯片從業者這樣表示。

還有一大挑戰就是穩定性問題。在如此大規模的集羣上,運維的複雜性急劇增加。硬件不可避免地會出故障,而規模越大,出故障的概率就越高。業界常常拿Meta訓練Llama模型舉例,該模型用的是1.6萬卡算力集羣,大概每隔兩三個小時整個訓練任務就要因此重新開始,回到上一個Checkpoint(檢查點)。“如果推演到10萬卡,意味着每30分鐘訓練就要中斷一次,有效訓練時長佔比會非常低。”沈抖告訴記者。

他稱,在這些故障中,絕大多數是由GPU引起的。其實GPU是一種很敏感的硬件,連中午天氣溫度的波動,都會影響到GPU的故障率。

“這些挑戰迫使我們重新思考如何構建、管理和維護這樣龐大而複雜的GPU集羣,屏蔽硬件層的複雜性,爲大模型落地的全流程提供一個簡單、好用的算力平臺,讓用戶能夠更容易地管理GPU算力、低成本地用好算力。”沈抖告訴記者。