算力服務器的迭代進擊:從風冷到液冷丨直擊2024上海MWC

21世紀經濟報道記者駱軼琪 上海報道

近些年來,算力與通信早已形成密切結合、匹配發展的趨勢。

在上海世界移動通信大會(MWC上海)現場,21世紀經濟報道記者發現,多家通信產業鏈頭部公司都展示了其在算力相關市場的能力佈局,其中在服務器市場,推動浸沒式液冷服務器和冷板式液冷服務器並行發展成爲部分廠商的選擇。

一名服務器行業技術人員對21世紀經濟報道記者分析,從技術路線看,冷板式液冷服務器相對更適合應用在對傳統數據中心進行改造、邊緣計算等精確冷卻的場景;浸沒式液冷服務器則相對適用於AI、HPC等有極高效散熱需求的場景。其所在廠商的浸沒式液冷服務器已經可以將PUE降低到1.1以下,冷板式液冷服務器則還略高於該水平。

該名人士坦言,目前浸沒式液冷方案的確相比冷板液冷方案會有相對偏高的部署成本,具體到實現投資回報收益時間,大約前者比後者長1年左右。但隨着當前浸沒式液冷技術的相關產業鏈在持續探索迭代,其優勢還有望進一步優化。

第三方機構IDC近期發佈的報告顯示,中國液冷服務器市場在2023年繼續保持快速增長。年內中國液冷服務器市場規模達15.5億美元,同比增長52.6%,其中95%以上均採用冷板式液冷解決方案。IDC預計在2023-2028年,中國液冷服務器市場年複合增長率將達45.8%,2028年市場規模將達到102億美元。

路線升級

通信產業鏈廠商將能力滲透到算力領域有其業務邏輯。

MWC上海期間,中興通訊總裁徐子陽就介紹道,在智算領域,高速網絡連接不僅不可或缺,而且至關重要。無論是芯片內裸Die互聯、芯片之間、服務器之間、DC之間,網絡連接技術的持續創新和突破,將極大提升智算的性能與效率。

據悉在數據中心側,中興依託風液融合、彈性配電等節能技術,能打造PUE(電能利用效率)低至1.1(基於綠色低碳考慮,工信部要求2023年底新建大型數據中心PUE應在1.3以下)、機櫃功率密度最高達60kW的新型智算中心。

目前在服務器市場,正逐漸從風冷散熱技術向液冷散熱技術轉型,後者的不同技術路線中,冷板液冷式技術的落地應用比重更高。

秦淮數據集團CTO張炳華此前接受21世紀經濟報道記者專訪時分析道,傳統通用計算採用的機櫃單機功率相對較低,但異構的智能計算對數據中心規模、單機櫃功率密度以及冷卻方式均提出了更高要求。隨着單機櫃功率密度提升,原來的風冷方案已經不能滿足高功率密度冷卻要求,冷卻方案也逐漸從風冷轉向液體冷卻。

在談到不同冷卻方案的應用趨勢時,張炳華表示,“儘管此前英偉達H100發佈時,提供了液冷和風冷兩種解決方案,但市場上大部分用戶更傾向於使用風冷方案。”究其原因,主要是考慮到液冷服務器及配套設施開發週期相對更長,成本也更高,客戶希望通過更快速、更低成本的方式實現業務快速落地,搶佔大模型在行業中的領先優勢。

然而,隨着芯片的功率密度不斷提升,風冷冷卻方式無法滿足高功率密度服務散熱的剛性需求,加上現階段冷板液冷相較於浸沒式液冷在技術上相對更成熟,供應鏈更加完善,且不存在液體與服務器電子元器件及原有系統的耦合問題。因此他指出,冷板液冷將會是未來數據中心的主流應用方式。

中國信通院發佈的《算力中心冷板式液冷發展研究報告》指出,目前算力中心所採用的液冷技術主要分爲冷板式液冷、噴淋式液冷和浸沒式液冷三種。噴淋式和浸沒式液冷技術相較於冷板式液冷,在極高功率密度情況下可以實現更高的散熱效率。然而,噴淋式和浸沒式液冷技術在實施和維護上相對複雜,涉及更多安全和環境考慮,也需要更多的成本投入。相比直接接觸式液冷技術,冷板式液冷的優勢在於更好的材料兼容性和簡便的改造方式。

前述技術人員也對記者表示,從技術路線看,目前冷板式液冷技術應用鋪開範圍更廣。浸沒式液冷方案雖然目前還沒有明確相關標準,但在該領域有前瞻部署的企業,也就意味着在後期標準建立過程中有更多經驗輸出的機會,那麼後續更多浸沒式液冷方案落地時,也有望更具備先發優勢和能力沉澱。這是不同廠商之間選擇不同技術策略和傾向的原因。

應對新挑戰

當然,應用新技術過程中也將面臨新的挑戰。

前述信通院報告指出,冷板式液冷技術能夠有效降低算力中心PUE,相比於浸沒式液冷,冷板式液冷對現有服務器芯片組件及附屬部件改動量較小,可操作性更強,且對於當前的算力中心整體架構及後續維護影響不大,運維模式、機房承重與傳統風冷場景基本一致,是目前成熟度較高、應用更爲廣泛的液冷散熱方案。

算力中心機櫃液冷化改造的主要工作,在於對原有機櫃及服務器的冷板式改造,改造內容包括配電、布放管路、冷卻液體流量分配單元CDU等,並同步配套調試漏液檢測、堵塞等監控線系統。

但冷板式液冷改造也面臨諸多挑戰:一是冷卻液在流動過程中,如果壓力過大,會增加漏液風險,而且會對工作人員和設備造成潛在風險;二是算力中心液冷化改造涉及樓體、空間改造、系統改造等多個環節,改造週期長,產業鏈協同性較弱;三是要考慮一定的改造成本。

張炳華也對記者提到,未來在進行數據中心運維工作時,可能將面臨更多挑戰。傳統的風冷數據中心運維相對簡單,但隨着智能計算規模擴大,數據中心的機櫃功率密度、冷卻方式和供電方案等方面都在不斷演進。

“例如,一些智算中心採用液體冷卻機櫃,包含冷板式液冷和浸沒式液冷;其中,浸沒式液冷會導致液體和服務器、網絡設備之間產生耦合,改變數據中心的整個產業生態。這既增加了產品設計、工程建設、驗收交付和運營維護的複雜性,也需要解決ICT設備抗腐蝕、液冷系統材料選擇、施工工藝等新技術問題。”張炳華指出,因此,如何保障不同冷卻方式的數據中心更加安全穩定運行,如何根據不同的業務場景制定標準的運維操作流程、如何面對可能的故障場景制定緊急操作流程、如何快速響應客戶變更要求保障SLA也變得更爲重要——這些都對第三方數據中心服務商的綜合實力提出了更高要求。

對於採用液冷服務器可能面臨的遷移難題。Omdia雲與數據中心研究首席分析師王珅對21世紀經濟報道記者指出,向液冷的轉換可以逐步進行:在改造項目中儘可能利用已有的冷卻設備來降低成本;在新建數據中心中則可以大膽地進行面向未來的設計。

“一代冷卻設施的改造可能要覆蓋三四代IT設備的生命週期,因此短期內的成本上升在長期來看是合算的。目前並未到非液冷不可的地步,及早採用液冷可以培養液冷產業鏈和用戶的成熟度,因爲1000W/芯片以上的時代將很快到來,那時液冷將是冷卻的必要選項。”他續稱。

IDC中國服務器市場研究經理辛一指出,目前國內液冷產業仍處於起步階段,但與國外相比,在液冷技術探索上已不存在較大差異,反而在大規模商業應用經驗方面,國內相關產業鏈處於領先優勢,這得益於中國龐大的數據市場。目前液冷產業推廣過程中面臨的一個重要課題是如何在液冷數據中心的建設成本和投資回報率以及運維安全性上做到均衡,這需要產業相關組織、機構、企業及合作伙伴,在標準制定、成本控制、技術創新等方面共同努力,加大投資和配套設施建設力度。IDC預計,液冷行業將迎來真正“剛需”放量的元年。