字節跳動,重大宣佈!成本再降40%!
大模型訓練成本,再砍一刀!
3月10日,字節豆包大模型團隊在國際知名開源社區平臺GitHub上開源了一項針對 MoE(混合專家模型)架構的關鍵優化技術COMET。據悉,該技術可將大模型訓練效率提升1.7倍,成本節省40%。目前,COMET已實際應用於字節的萬卡集羣訓練,累計幫助節省了數百萬GPU小時訓練算力。
MoE是當前大模型的主流架構,最近大火的國產大模型DeepSeek採用的就是MoE架構。DeepSeek自研的DeepSeekMoE作爲一種創新的大規模語言模型架構,通過整合專家混合系統、改進的注意力機制和優化的歸一化策略,在模型效率與計算能力之間實現了新的平衡。
字節豆包大模型團隊表示,MoE在分佈式訓練中存在大量跨設備通信開銷,嚴重製約了大模型訓練效率和成本。針對這一難題,字節在內部研發了COMET計算-通信重疊技術,通過多項創新,大幅壓縮了MoE專家通信空轉時間。
在此前的“開源周”活動中,DeepSeek也曾開源了團隊爲解決MoE通信瓶頸而採取的DualPipe+DeepEP方案。不過,與之不同的是,COMET可以像插件一樣直接接入已有的MoE訓練框架,支持業界絕大部分主流大模型,無需對訓練框架進行侵入式改動,更加方便、靈活、通用。這一方法,還因其簡潔性與通用性而高分入選全球機器學習系統頂級會議 MLSys 2025,被認爲“在大規模生產環境中極具應用潛力”。
不僅如此,由於在降低MoE通信開銷上,COMET採用了計算-通信融合算子的優化方式,DeepSeek研發的DualPipe則通過排布算子來掩蓋通信,兩種方案並不衝突。因此,COMET還可以與DualPipe方案結合使用,以更大程度壓縮訓練成本。
值得注意的是,就在一個月前的2月12日,字節跳動豆包大模型團隊發佈消息稱,團隊提出了全新的稀疏模型架構UltraMem,可有效解決MoE推理時高額的訪存問題,推理速度較MoE架構提升2—6倍,推理成本最高可降低83%。
業內人士分析,此次開源的COMET可與此前提出的UltraMem結合使用,將大模型訓練成本進一步“砍”得更低。
當前,隨着技術的不斷進步迭代,以及頭部廠商逐漸加入開源大軍,大模型訓練成本正不斷下降。啓明創投主管合夥人周志峰曾表示,大模型每百萬Token調用成本已經從2023年120美元(約人民幣800元)降到2024年不到人民幣1元,下降了99.9%,根據估算,未來成本很有可能再下降99.9%。
DeepSeek、字節跳動等國產大模型通過提高架構創新、算法優化,提升了訓練效率,降低訓練成本,看似減少了算力的需求,但中國銀河證券研報指出,大模型成本縮減意味着降低了企業的訓練與推理門檻,即每單位成本所能提供的訓練和推理服務更多了,算力效率提升有望激活更廣泛的用戶與應用場景,從而引發對更大參數以及更復雜的大模型迭代需求。
研報進一步表示,算法優化(如模型壓縮、蒸餾)確實能提升單次任務效率,但AI能力的邊界擴展(如多模態、複雜推理、通用人工智能)仍依賴更大規模模型和更復雜計算。這可能會對均衡下的算力需求產生正面影響,整體算力需求不會減少而是更加旺盛,從而形成對硬件需求的新一輪推升,即步入“算法進步→模型複雜化→硬件升級”的正循環。
在通過技術創新持續降低模型訓練成本的同時,字節跳動也在擴大AI資本開支,招募更多頂尖AI人才,研發投入顯著領先同行。浙商證券研報分析,字節跳動在AI上投入巨大,2024年資本開支達到800億元,接近百度、阿里、騰訊三家的總和(約1000億元)。市場人士分析,2025年字節跳動或進一步上調AI資本開支,擴大算力投資規模。
一方面加大資本投入,另一方面增強人才隊伍,字節跳動正積極地“招兵買馬”。記者注意到,字節跳動近日還首次啓動了“筋斗雲人才計劃實習專項”。據內部人士介紹,該計劃是字節跳動面向優秀校園技術人才推出的專項招聘,意在全球範圍內,吸引和招募有志於用技術創造突破性價值的頂尖學生。
此外,字節跳動另一招聘計劃“Top Seed人才計劃(含研究實習專項)”全年開放招募,這是國內唯一的專門針對大模型領域的人才計劃,旨在全球範圍內持續尋找有志於投身 AI 研究的頂尖人才。字節跳動校招負責人表示:“公司十分重視人才、關注人才成長,相信優秀的校園人才能發揮自身潛力,不斷超越現狀,創造出突破性的價值。”
責編:萬健禕
校對:王蔚
版權聲明
" Type="normal"@@-->
證券時報各平臺所有原創內容,未經書面授權,任何單位及個人不得轉載。我社保留追究相關行爲主體法律責任的權利。
轉載與合作可聯繫證券時報小助理,微信ID:SecuritiesTimes" Type="normal"@@-->
END
" Type="normal"@@-->