“第三顆主力芯片”DPU:未來三年是商用落地窗口期

作爲數據中心繼CPU和GPU之後的第三顆主力芯片,DPU近年來熱度持續提升。

DPU,即數據處理器,具備強大網絡處理能力,以及安全、存儲與網絡卸載功能,可釋放CPU算力,能夠完成CPU所不擅長的網絡協議處理、數據加解密、數據壓縮等數據處理任務,並對各類資源分別管理、擴容、調度,即處理“CPU做不好,GPU做不了”的任務,實現數據中心降本提效。

在AI時代,智算中心需要處理的數據量井噴,DPU能夠釋放智算中心的有效算力,能夠解決基礎設施的降本增效問題,重要性和滲透率正逐漸提升。

三U一體,更適配智算時代的解決方案

“DPU這個概念是四年前被英偉達炒作起來的。在收購了以色列公司Mellanox後,英偉達一躍成爲業界首個既有CPU、GPU,也有DPU的數據中心完整解決方案的供應商。”芯啓源創辦人盧笙在接受第一財經專訪時表示,芯啓源是國內最早一批從事DPU研發的廠商之一,可以追溯到2018年,那個時候還稱爲智能網卡Smartnic。

“過去承載網絡傳輸功能的是傳統網卡,後來誕生了智能網卡,四年前逐步演化爲DPU。” 專注於智能計算芯片研發設計的中科馭數(北京)科技有限公司高級副總裁張宇告訴第一財經。

2020年,英偉達發佈的DPU產品戰略中將其定位爲數據中心繼CPU和GPU之後的“第三顆主力芯片”,自此引爆了DPU概念。

如今,DPU已成爲數據中心內新興的專用處理器,專門設計用於加速數據中心中的安全、網絡和存儲任務,針對高帶寬、低延遲的數據密集型計算場景提供動力。DPU的核心作用是接管原本由CPU處理的網絡、存儲、安全和管理等任務,從而釋放CPU資源,並加強數據安全與隱私保護。

“英偉達所做的智算中心的方案,其實都是三U一體的。英偉達三年前的DGX A100服務器、後面的DGX GH200等一系列,都是包含CPU、GPU和DPU的。當然DPU裡還有像RDMA這種智能網卡,這些其實都可以歸爲DPU,它們本質上是一個東西。所以從這個角度看,當前行業內引領的,或者說大家公認的方向,是在智算中心裡CPU加GPU加DPU三者協同。”張宇表示,通用數據 中心的方案則更多是CPU加存儲加網絡,一些雲原生場景裡對低時延高吞吐的數據網絡處理也是剛需,智算場景對網絡處理性能要求更高。

“如果把CPU比喻爲大腦,用於整體控制,那麼GPU則更像是肌肉,用於提供堅實的充沛的並行計算的算力,而DPU則更像是血管和神經,將GPU需要算的數據,通過DPU運輸到服務器中,完成控制指令交換和協議轉換。”張宇稱。

“多PU的配合實際上是整體計算架構的升級,從過去以通用CPU爲主的架構走向加速器爲主的計算架構,通過CPU、GPU、DPU、NPU等配合來提升整體計算方案的性價比。”張宇表示,“目前在技術方面,DPU已經逐步趨向成熟,邊界也比較成熟。網絡安全加解密、零信任、網絡卸載,已經基本上成爲了DPU穩定承載的功能。”

減少capex投入和能耗,具有一定性價比

作爲CPU的卸載引擎,DPU最直接的作用是接管網絡虛擬化、硬件資源池化等基礎設施層服務,釋放CPU的算力到上層應用,因此能夠有效釋放智算中心的算力,提升能效比。

“英偉達此前承認其上一代生成式AI服務器的算力芯片的效率只有設計能力40%,我們測下來只有30%多,這意味着大部分算力是被閒置的,究其原因主要是在集羣間等待計算產生的中間變量完成數據同步,網絡通路的能力限制了算力底座的上限,而這恰恰是DPU的真正價值所在。”盧笙表示,這使得DPU又被推到風口浪尖。

在數據量爆炸的AI時代,DPU不僅能夠協助構建兼具低時延、大帶寬、高速數據通路的新型算力底座,還能夠安全高效地調度、管理、聯通這些分佈式CPU、GPU資源,從而釋放智算中心的有效算力。因此,DPU的部署能夠減少數據中心的一次性capex(資本性支出)投入。Cisco(思科)的數據顯示,通過虛擬化技術,企業可以減少高達40%的服務器數量,同時提高資源利用率。

另一方面,DPU通過專用硬件加速網絡、安全和存儲任務,提高了數據中心的能效。

盧笙介紹,以中國移動在浙江省SD-WAN這一個應用場景爲例,“通過芯啓源DPU網卡打造的軟硬件一體化解決方案,實現了網絡安全業務卸載,相較於傳統純軟件SD-WAN網絡方案,單機效率提升了6-8倍,整體項目也節約了80%的服務器部署投入和每年的軟件費用等,極大降低了CAPEX投入;此外,由於機器部署減少,數據中心的能耗降低,經測算每年可以節省超300萬度電,同時極大降低了數據中心的運營成本。”

成本方面,第一財經瞭解到,DPU的研發和生產成本相對較高,特別是使用先進工藝時,因而價格較高,但由於部署DPU解決方案,既能夠減少服務器設備數量,也能在後續運行計算過程中節省能耗,因此整體系統成本上仍然具備一定性價比,但也要根據具體場景和應用情況來討論。

未來三年是商用落地的關鍵時期

不過,目前DPU的滲透率提升仍面臨阻力。

專注於硬科技領域早期投資的創投機構中科創星相關人士告訴第一財經,DPU作爲軟硬件協同的虛擬化架構,需要與CPU中運行的虛擬化軟件棧進行有效對接,同時,DPU的硬件設計必須考慮到與現有系統的兼容性和集成性;其次,DPU的架構和接口尚未形成統一標準,不同廠商的產品存在差異,這給用戶在使用、維護和升級時帶來挑戰;此外,軟件生態尚未成熟,缺乏完善的開發工具、驅動程序和操作系統支持,“但目前已經有公司在做”。

盧笙表示,DPU需要專用的高效指令集,這也是其核心競爭力所在,剩下三分之二的工作則是圍繞指令集打造生態,生態建設是DPU行業的核心壁壘,生態建設的成熟度決定了產品商業化落地的速度。

整體來看,DPU產業目前仍以國外企業爲主導,三大巨頭英偉達、博通和英特爾的份額佔比較高,亞馬遜、微軟這些科技公司也在跟進。國內方面,中國移動、阿里等大企業也在研發專用的DPU,初創企業如芯啓源、中科馭數、大禹智芯等也取得了相應的成果或進步。

“國內外的DPU技術發展處於同一階段,但國外企業積累更深厚一些。在我看來,DPU產業其實已經逐步走向成熟和快速落地的階段。國外可能比國內可能走得更早更快一點。”張宇表示。

在DPU商業化落地方面,目前國內僅有華爲、阿里、中興等大型雲廠商,以及芯啓源、中科馭數等少數DPU新勢力已實現商用。信通院預計,2025年我國數據中心DPU滲透率可達到12.7%。

張宇認爲,DPU走到當前階段,更重要是與雲在IaaS這一層的深度融合,尤其是如何給客戶提供全面、便捷、透明的純軟件的IaaS方案,使他們能夠平滑地遷移到用DPU來支撐這種高能效比的雲方案。

“這塊的遷移需要行業的共同努力,並且需要持續很長時間,甚至要以年來計。”張宇稱,“亞馬遜雲就走得比較快,他們研發實力比較強,已經完成了IaaS on DPU的轉換,但對國內大部分企業來說,步伐不會邁得太大,可能會從最痛的幾個點先透明地用起來,比如OVS卸載、網絡升級等。”

“DPU的商業化不僅僅依靠於傳統數據中心的IaaS領域,也包括網絡安全、高性能存儲、集羣通信等諸多的行業和領域。”盧笙表示,芯啓源多年來深耕“DPU for Security”方向,將DPU應用於諸如防火牆、安全網關等產品,目前已進入深信服網安產品線,成爲標配擴展卡,解決了諸如Intel CPU大象流處理能力不足等業界難題。

“從目前的產業發展趨勢來看,如果技術發展符合預期,大概2025-2027年會有一個爆發。”上述中科創星相關人士表示,原因在於,隨着數字經濟、AI和雲計算產業的發展,服務器市場會迎來一個增長,尤其是在金融、政府和電力用戶領域,不僅需要大量的DPU來處理數據,提升計算效率,還需要DPU發揮安全性的優勢。

“DPU芯片確實已經大規模應用了,目前的增速在每年20%-30%。但DPU的行業特質就是需要保持穩定性,需要穩定在集羣上運行幾個月再擴集羣。”張宇表示,更重要的一點,結合國內信創行業的發展來看,這兩三年會是非常關鍵的時期,是每家DPU廠商都需要把握好的關鍵時間窗口。

“DPU還不是一個標準化的產品,商業化上量的過程需要結合市場的需求和不同應用場景的深入打磨,需要上下游廠家協同,從幾百片小規模試點到上萬片的大規模部署需要積跬步至千里。”盧笙表示,DPU的商業化需要全行業夥伴共同努力,加強彼此的生態互信與合作,在國產化CPU+GPU+DPU的3U一體商業化之路攜手前行。