重大突破!中國移動、華爲、中興等聯合發佈首顆GSE DPU芯片
11月19日消息,在2024 世界互聯網大會“互聯網之光”博覽會上,中國移動宣佈,攜手華爲、中興、華三、銳捷、盛科、雲豹智能等產業合作伙伴共同發佈首顆全調度以太網(GSE)DPU 芯片 ——“智算琢光”,填補了我國在新型智算中心網絡高性能DPU芯片領域的空白。
據中國移動介紹,“智算琢光”芯片是首顆全量支持GSE標準的DPU芯片,支持200G端口速率、以及GSE協議特有的報文容器噴灑以及基於DGSQ的擁塞控制機制等能力。基於該芯片搭建的GSE網絡性能可比傳統RoCE網絡提升30%以上,大幅提升GPU節點間通信效率。
目前,該芯片已與多家主流交換芯片完成了對接驗證,展現了強大的兼容性和實用性。
關於DPU芯片:國內外代表性公司
DPU(數據處理單元)是一種以數據爲中心構造的專用處理器,被視爲數據中心繼CPU和GPU之後的“第三顆主力芯片”。DPU的應用領域廣泛,包括人工智能和深度學習、邊緣計算、加密與安全等。
本次發佈的“智算琢光”,標誌着我國在高性能數據中心芯片領域的重大突破。
目前,英偉達(NVIDIA)是全球領先的DPU芯片供應商,其DPU產品在市場上具有顯著的影響力和領先地位。
英偉達在2019年以69億美元的價格收購了網絡芯片公司Mellanox,並於次年(2020年)推出BlueField-2 DPU,並認爲DPU將和CPU、GPU一起構成未來計算的三大支柱,自此引爆了DPU概念。隨後,英偉達也在持續迭代其DPU產品,包括BlueField-2和BlueField-3 DPU。
在2021年6月的Six Five峰會上,英特爾也推出了類似DPU產品,全新的基礎設施處理器(IPU),以提升數據中心的數據處理能力。
2022年,AMD以約19億美元收購了DPU 芯片製造商Pensando Systems,以繼續擴大其數據中心業務,正式進入了DPU市場。
除此之外,亞馬遜 AWS 旗下的 Nitro 卡也可提供此類功能。
2023年初,微軟宣佈對 DPU 技術提供商Fungible的收購,又一巨頭進入DPU領域。最新消息,就在11月19日舉行的Ignite開發者大會上,微軟正式推出了首款自研DPU(數據處理器)產品Azure Boost DPU。
國內方面,中國移動、阿里等大企業也在研發專用的DPU,初創企業如芯啓源、星雲智聯、中科馭數、大禹智芯、雲脈芯聯等也取得了相應的成果或進步。
2022年7月,中國移動、中興通訊、英特爾(中國)、華爲、芯啓源、大禹智芯等還聯合編寫發佈了《中國移動DPU技術白皮書》,進一步推動了DPU技術發展和產業繁榮。
在DPU商業化落地方面,目前國內有華爲、阿里、中興等大型雲廠商,以及芯啓源、中科馭數等少數DPU新勢力已實現商用。
目前來看,DPU雖尚處於起步階段。但據賽迪顧問發佈的數據,預計到2025年全球 DPU 產業市場規模將超過245.3億美元(約1771億人民幣),DPU市場或將實現跳躍式增長,進入黃金髮展期。
關於全調度以太網技術(GSE)
隨着大模型的發展,對算力的需求急劇增加。大規模GPU集羣的互聯網絡技術對於提升集羣有效算力至關重要。
在此背景下,2023年5月,中國移動聯合10餘家中國企業率先發布了全調度以太網技術架構(GSE)白皮書,並在8月中國算力大會上正式啓動“GSE推進計劃”,成員包括國內外主流雲服務商、設備商、芯片商、高校等50餘家產學研機構。
GSE,Global Scheduling Ether,即全調度以太網技術架構。旨在打造標準開放、合作共贏的新型智算中心網絡技術標準,與美國公司主導的超級以太網聯盟(UEC)成爲全球範圍內兩個具有影響力的技術體系。(UEC由博通、思科、Arista、微軟、Meta等國際頂級半導體、設備和雲廠商牽頭成立,旨在創建一個“基於以太網的完整通信堆棧架構”。)
與傳統以太網基於流進行負載分擔的機制不同,GSE 交換網絡採用定長的PKTC進行報文轉發及動態負載均衡,通過構建基於PKTC的DGSQ全調度機制、精細的反壓機制和無感知自愈機制,實現微突發及故障場景下的精準控制,全面提升網絡有效帶寬和轉發延遲穩定性。
全調度以太網面向AI、HPC 等高性能計算場景設計,架構設計遵循以下三大原則:
全調度以太網構建開放透明標準化的技術體系,供所有高性能計算生態涉及到的芯片(GPU、DPU、CPU 等)、設備(服務器、交換機、網卡等)、儀表、操作系統等上下游產業共同使用;
全調度以太網可適應多種高性能計算場景,凡是涉及到無損、高帶寬利用率、超低時延需求的業務場景均可通用;
全調度以太網不是重造以太網,而是將高性能計算需求融入以太網,可最大限度地重用以太網物理層,兼容以太網生態鏈,如光模塊、PHY 層芯片等。
在商用方面,GSE技術分爲GSE1.0和GSE2.0兩個商用階段。
GSE1.0基於現有芯片最大限度地支持GSE新技術,優化網絡性能,目前已在中國移動智算中心(哈爾濱)超萬卡集羣實現首次商用,將訓練過程中通信時間佔比縮20%以上,達到國際先進水平。
GSE2.0則全面革新以太網底層轉發機制和上層協議棧,通過基於PKTC的多路徑噴灑、基於DGSQ的擁塞控制機制以及基於66B原子碼塊的故障檢測與通告等原創技術創新,從根本上解決傳統無損以太性能和可靠性問題。
GSE技術的提出和應用,標誌着中國在智算中心網絡技術領域的重要進展,助力全球AI產業發展。