大模型時代 雲生態躍遷

21世紀經濟報道記者 楊清清 北京報道

大模型熱潮已持續近兩年。

當度過最初的興奮、迴歸現實之時,許多從業者、開發者感到失落與迷茫,甚至對未來前景開始有所懷疑。

“因爲人們總是高估技術的短期價值,卻低估技術的長期價值。”在9月25日舉辦的2024百度雲智大會上,百度創始人李彥宏指出。在他看來,大模型是一次顛覆式的技術革命,長期前景非常樂觀。

不過坦言之,大模型落地仍存在諸多挑戰。在底層基礎設施方面,科技大佬們“英雄所見略同”,從此前的萬卡集羣到近期討論日盛的“十萬卡集羣”,“堆算力”成爲共同選擇。應用落地方面,今年以來大模型廠商掀起“價格戰”,但單純比拼降價幅度難言“觸及靈魂”,開發者還有更多的應用開發需求。

如今,“十萬卡時代”的臨近,疊加大模型應用的序幕,雲廠商能夠扮演怎樣的角色?

十萬卡時代降臨

單點萬卡集羣,讓生成式AI成爲絕對頭部玩家“權力遊戲”的同時,也讓大模型廠商承受着算力利用率低下、“停下即燒錢”的“難言之痛”。

但現在,萬卡集羣“病竈未除”,“十萬卡時代”卻開始逼近。

9月初,特斯拉CEO埃隆·馬斯克突然宣佈,旗下人工智能初創企業x.AI打造的超級人工智能訓練集羣Colossus(巨人)正式上線。該算力集羣擁有10萬張英偉達H100 GPU,並將在未來幾個月內繼續增加10萬顆GPU。

國內科技巨頭亦聞風而動。

在日前結束的雲棲大會上,阿里巴巴集團CEO、阿里雲智能集團董事長兼CEO吳泳銘指出,阿里的單網絡集羣已擴展至十萬卡級別。

“很快就會有更多的十萬卡集羣出現。”9月25日,在2024百度雲智大會上,百度集團執行副總裁、百度智能雲事業羣總裁沈抖判斷稱。

事實上,在大模型領域,擁有著名的第一性原理,即尺度定律(Scaling Law)。簡單理解就是,隨着模型大小、數據集大小和用於訓練的計算浮點數的增加,模型的性能會相應提升,並且要想獲得最佳性能,這三個因素需要同時放大。

這個定律仍在延續。據估算,自2012年以來,AI模型訓練算力需求每3至4個月就翻一番,每年訓練AI模型所需算力增長幅度高達10倍。因此也就不難理解,當前各大科技巨頭進軍“十萬卡集羣”的緣由。

然而,從萬卡到十萬卡並非簡單的算力堆疊,兩者之間的管理存在本質區別。

“要部署十萬卡的大規模集羣,光是在物理層面就要佔據大約10萬平方米的空間,相當於14個標準足球場的面積。”沈抖透露,“在能耗方面,這些服務器一天就要消耗約300萬千瓦時的電力,相當於北京市東城區居民一天的用電量。”

如此種種,對空間與能源提出了巨大需求,遠遠超過了傳統機房部署方式所能夠承受的範疇,跨地域機房部署成爲不得已而爲之的選擇,但這又帶來網絡層面的巨大挑戰。

與此同時,還有運維方面的難點。事實上,即便是當前的萬卡集羣中,運維的複雜性已急劇增加。根據Meta披露的研究數據顯示,使用了1.6萬張GPU的Llama 3.1訓練持續54天,在此期間集羣遭遇419次意外組件故障,平均每3小時發生一次。

而集羣規模提升至十萬卡,發生故障的概率無疑會更高。“大模型訓練是一個龐大的單一任務,需要齊步走。一個節點出錯,整個集羣就得停下、回滾到上一個記憶點。”沈抖解釋稱,“每停一分鐘,都是白白燒錢。”

在接受包括21世紀經濟報道在內的媒體採訪時,百度傑出系統架構師、百度智能雲AI計算部負責人王雁鵬指出,2024年很多企業加大了在大模型領域的投入,但大家在大模型訓練時遇到了一個共性問題,那就是算力利用率很低。“目前企業訓練大模型的算力有效利用率不足50%,這意味着,一半以上的算力被浪費了。”

這也爲“十萬卡時代”的算力建設提供了另一種思路。除了大幹快上“圈地”算力池之外,提升算力的有效利用率成爲首選項。

百度所升級的百舸4.0平臺,正是面向萬卡、十萬卡集羣全面提升算力管理能力。不僅在集羣創建階段可將萬卡集羣運行準備時間從幾周縮短至1小時,還能夠在模型訓練階段,通過AI算法判斷集羣狀態“未雨綢繆”,和故障發生時實現秒級感知和定位進行快速處理,從而實現接近無損的集羣容錯。此外,百舸4.0還能夠通過一系列加速方法,實現模型推理的降本增效。

就此,沈抖給出了一組數據:目前在萬卡任務上,百舸4.0可以保障有效訓練時長佔比達到99.5%,遠高於行業內公佈的相關指標;在集羣的模型訓練效率方面,百舸4.0整體性能比業界平均水平提升了高達30%;在模型推理方面,百舸4.0長文本推理效率提升超過1倍。

而面對十萬卡集羣,百舸4.0已經構建了超大規模無擁塞HPN高性能網絡、10ms級別超高精度網絡監控,以及面向十萬卡集羣的分鐘級故障恢復能力。“百舸4.0正是爲部署十萬卡大規模集羣而設計的。今天的百舸4.0,已經具備了成熟的十萬卡集羣部署和管理能力,就是要突破這些新挑戰,爲整個產業提供持續領先的算力平臺。”沈抖指出。

應用序幕拉開

考慮到GPU採購及運營的成本問題,提升算力的有效利用率,換個理解,就是省錢。

這與當前業界“不算眼前賬”、“燒錢”降價帶動應用爆發的思路有所不同。有開發者向21世紀經濟報道記者指出,過去一年內,大模型的降價更多是由平臺補貼所致,但這並不能解決本質上的問題。

通過提升算力有效利用率,百度智能雲正在持續降低模型調用成本。沈抖介紹,過去一年,文心旗艦大模型降價幅度超過90%、主力模型全面免費,最大限度降低企業創新試錯的成本。

不過,相較於別的廠商而言,本次百度雲智大會的重點顯然並未落在降價身上,而是放在了推動大模型落地的需求滿足方面。

沈抖透露,進入2024年,百度智能雲的許多客戶已經開始將大模型落地在自身的生產力場景中。目前在千帆平臺上,文心大模型日均調用量超過7億次,千帆平臺累計幫助用戶精調了3萬個大模型,開發出70多萬個企業級應用。

“這不僅反映了千帆平臺上大模型的調用量,也是過去18個月整個國內大模型產業發展的一個縮影。”沈抖指出。

但在沈抖看來,這只是一個序幕。“我們相信,大模型給每個企業提供了平等的增長機會。不管企業大小、場景多少,誰先用起來,誰就搶佔先機。”

具體而言,下游企業與開發者要真正用上大模型、用好大模型,離不開便捷、高效的大模型工具鏈和應用開發平臺。就此,百度智能雲發佈千帆大模型平臺3.0。

據介紹,升級後的千帆平臺,不僅可以調用包括文心繫列大模型在內的近百個國內外大模型,還支持調用語音、視覺等各種傳統的小模型。同時在模型開發方面實現數據、模型、算力等資源的統一納管和調度,爲企業提供一站式的大、小模型開發服務。

在應用開發方面,針對企業落地大模型的高頻應用場景,千帆3.0從檢索效果、檢索性能、存儲擴展、調配靈活性四方面對企業級檢索增強生成(RAG)進行了全面升級;針對企業級智能體的開發,千帆3.0增加了業務自主編排、人工編排、知識注入、記憶能力以及百度搜索等80多個官方組件支持。

衆多AI應用的發展方向,李彥宏直言最看好智能體,並將之視爲PC時代的網站和自媒體時代的賬號。

李彥宏表示,智能體最明顯的特點是門檻足夠低,誰都能上手,但同時天花板又足夠高,可以做出非常複雜,非常強大的應用。未來,將會有數以百萬量級的智能體出現,形成龐大的智能體生態。

值得一提的是,在今年百度舉辦的“文心杯”創業大賽中,有超過60%參賽團隊聚焦智能體的應用,超過30%參賽團隊沒有專業程序員。

不過,目前智能體還並非業界共識。“像百度這樣把智能體作爲大模型最重要的戰略、最重要的發展方向的公司並不多。”李彥宏坦言道。

智能雲演進

大模型時代需要怎樣的雲?百度通過雲智大會,給出了自己的答案。

而這,也是百度雲借道大模型爆發,從而搶佔市場的思路。

目前,從絕對市場份額來說,百度智能雲並不算有優勢。根據Canalys披露的最新數據,2024年第二季度,中國大陸雲基礎設施服務支出達到94億美元,同比增長8%。阿里雲、華爲雲和騰訊雲繼續主導市場,共佔71%的市場份額。

不過從增速而言,百度雲正在追趕中。在百度2024年第二季度財報電話會上,李彥宏透露,百度智能雲在本季度營收達51億元,同比增長14%,並持續實現盈利(Non-GAAP)。

相較之下,阿里雲第二季度營收增長6%,華爲雲13%,騰訊雲未直接披露收入增速。

之所以智能雲能夠實現超出市場的增長,與百度AI大模型能力密不可分。隨着文心大模型及文心一言的發佈,百度在AI領域進一步鞏固、拓展了自身的優勢領域。而生成式AI及大語言模型的能力,又轉而增強了百度在雲端的競爭優勢。

因此也就不難理解,受益於大模型訓練及推理需求等,百度智能雲業務收入實現可觀增長。根據百度方面披露的數據,今年二季度智能雲收入中,AI貢獻的收入佔比進一步提升至9%,高於上一季度的6.9%。

根據IDC發佈的《中國大模型平臺市場份額,2023:大模型元年—初局》顯示,2023年中國大模型平臺及相關應用市場規模達17.65億元,百度智能雲在2023年大模型市場規模達3.5億元,位居市場第一,市場份額達19.9%。

海通國際研報認爲,百度此次雲智大會展現了其在大模型賽道全線的能力。百度一直在持續迭代並鞏固其行業領先的地位。儘管商業化前景尚不明確,但隨着宏觀經濟好轉,大模型大規模商用的時間節點到達,百度有望憑藉其先發優勢,在廣告、智能體、模型訓練推理、智能雲部署方面率先獲得增量收入。