中國移動今年將商用三個自主可控萬卡集羣 總規模近6萬張GPU卡

4月28日,2024中國移動算力網絡大會開幕。《每日經濟新聞》記者在現場注意到,據中國移動副總經理高同慶介紹,下一步,中國移動將加速邁向3.0,全面支撐人工智能+。在構建大集羣,打造AI模型訓練的超級工廠方面,中國移動今年將商用哈爾濱、呼和浩特、貴陽三個自主可控萬卡集羣,總規模近6萬張GPU卡,充分滿足大模型集中訓練需求。

高同慶表示,隨着大模型訓練逐漸轉向大規模行業應用,泛在的推理需求持續涌現,中國移動將按需在1500個邊緣節點部署推理算力,形成“中心大集羣、邊緣廣分佈、中訓邊推、訓推一體”的智算網絡。同時還將持續完善技術體系,推進全棧技術創新,突破堵點,加快邁向超萬卡集羣。

根據高同慶透露,面向機間互聯,中國移動原創提出全調度以太技術體系(GSE),構建無阻塞、高帶寬、超低時延的新型智算中心網絡,對標國際主流的IB和UEC方案,形成中國自主的技術體系,今年將開展GSE中試,加速GSE關鍵技術和產業成熟。面向卡間互聯,則打造標準開放總線級互聯架構,提升GPU卡間高帶寬、低時延通信能力,實現互聯拓撲和協議的全棧級優化。

多元異構方面,中國移動致力於構建融合開放的大算力生態,推進一雲多芯多樣算力,打破AI芯片生態豎井,今年將升級“芯合”算力原生平臺,支持智算應用在更多GPU芯片的快速遷移,同時還支持面向大模型的分佈式異構混訓,打破當前大模型僅能在單廠家單型號集羣訓練的侷限;進一步實現雲底座關鍵技術突破,升級“大雲天元”操作系統,商用推廣雲原生數據庫、新一代SDN網絡。

此外,高同慶還提到,今年中國移動將加速算網大腦規模化商用;數據方面,中國移動正在加快構建集約高效的數聯網,到今年底,中國移動算力併網規模將突破5EFLOPS,算網服務樣板間超過80個,數聯網交易節點落地超10個。