DeepSeek重塑國產AI生態圈

本報記者 李玉洋 上海報道

通過“開源周”以及公開發布V3/R1大模型的推理系統技術介紹,DeepSeek成爲AI技術圈和開發者的“開源之神”,已經被暱稱爲DeepOpen。

當DeepSeek的開源代碼如蒲公英種子飄向世界,國內AI芯片行業是否能借此東風,迎來屬於自己的春天?

“(DeepSeek的開源)對整個AI行業都有一定程度的推動。”行業研究機構Omdia人工智能首席分析師蘇廉節告訴《中國經營報》記者,AI芯片廠商通過這些開源代碼更加了解DeepSeek大模型的架構和特點,進而做出相對應的優化,特別是算力的配置、訓練推理的架構、存儲資源的需求等。

摩爾線程和壁仞科技這兩家國內AI芯片的代表廠商都在接受採訪時表示,DeepSeek這種低算力需求的大模型,對國產AI芯片的發展是一個重要機遇。

記者還注意到,隨着DeepSeek的出圈,國產算力迎來火爆行情,一大批一體機密集上線,由此出現“2025是一體機元年”的觀點。“一體機今年火起來主要是因爲DeepSeek,很多政企客戶都想把DeepSeek用起來。”容聯雲大模型產品負責人唐興才表示,市面上目前滿血版DeepSeek大模型一體機售價約爲200萬元。

盤活國產AI生態

在“開源周”上,FlashMLA是DeepSeek專爲英偉達Hopper 架構 GPU(如英偉達 H100/H800)優化的注意力解碼內核,已投入生產,現在被視爲提升顯卡潛力的“加速器”。DeepEP則是首個用於MoE模型訓練和推理的開源EP通信庫,可以直接調用 Hopper GPU的 TMA 張量內存加速器,被稱爲大模型訓練的“通信管家”。而DeepGEMM是一個優化矩陣乘法的工具,實現FP8低精度下的1350+ TFLOPS算力,代碼僅300行,被稱爲矩陣計算的“省電小能手”。DualPipe主要用於解決流水線並行中的“等待時間”問題;比如,多任務步驟速度不一時,其能雙向調度,減少空閒時間。EPLB則用於自動平衡GPU負載,當某些AI專家模型任務過重時,會複製任務到空閒顯卡,避免“忙的忙死,閒的閒死”。最後的是3FS,被稱爲數據處理的“極速組合”,採用了分佈式文件系統,利用高速存儲和網絡技術(如SSD、RDMA),讓數據讀取速度達到每秒6.6TB。

值得注意的是,DeepSeek在包括上述開源項目中直接調用比英偉達CUDA更底層的指令PTX(Parallel Thread Execution,一種底層硬件指令集,用於直接與GPU驅動函數進行交互,實現更爲精細的硬件操作、優化TMA加速器等),顯示出DeepSeek對於GPU微架構的深度瞭解。這種能力通常爲芯片設計團隊所獨有。

蘇廉節也表示,DeepSeek團隊對GPU硬件底層技術的理解力很強,這在大模型行業並不多見。甚至有消息傳出,DeepSeek在尋找芯片設計人才,想要做自己的芯片。對此,蘇廉節認爲,目前140人的DeepSeek團隊要做芯片設計很困難,但它背後的幻方量化所在的金融領域確實有定製化芯片的需求。

目前,摩爾線程已實現對DeepSeek開源周“全家桶”的支持,涵蓋FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件系統(3FS);壁仞科技在“開源周”之前就已經實現對FlashMLA、DeepGEMM、DeepEP等核心模塊類似功能和優化技術。

事實上,春節期間已有多家國產芯片企業陸續宣佈對DeepSeek模型的適配或者上架服務,包括華爲昇騰、沐曦、天數智芯、摩爾線程、海光信息、壁仞科技、雲天勵飛、燧原科技、崑崙芯等。

“通過‘開源周’,更多人尤其是開發者看到了DeepSeek的優勢和如何去進行調優和適配。”蘇廉節認爲,國內AI芯片廠商可以從DeepSeek的開源代碼庫中看到和進一步瞭解底層的哪些代碼對未來的適配性有幫助。

“比如DeepEP是一個專門爲混合專家模型開發的並行通信技術,需要芯片廠商支援。”蘇廉節表示,芯片廠商因此會開發相對應的工具,讓開發者能更順暢地進行代碼轉移和應用支撐。

摩爾線程方面則認爲,DeepSeek的開源模式爲國產AI芯片廠商提供了與軟件開發者合作的機會。“通過與DeepSeek爲代表的開源模型的合作,國內AI芯片廠商可以更好地理解AI應用的需求,進行鍼對性優化;國產模型+國產芯片可以形成完整的AI閉環,加速國產AI生態的發展進程。”

“短期內,國產GPU廠商應保持訓練芯片的持續迭代,比如最好支持FP8,確保技術不脫節,同時通過推理芯片快速切入商業化場景。”摩爾線程方面還表示,長期來看應該瞄準“訓(練)推(理)一體”架構,通過統一計算平臺降低客戶切換成本,最終在自主生態中實現訓練與推理的協同增長。

激活一體機市場

摩爾線程方面還提到,DeepSeek大幅降低AI成本,讓AI更加普及,反過來又會提升行業對算力規模的需求。

中信證券研報指出,算力算法聯合優化帶來的降本讓人們看到AI應用落地的更多可能,同時傑文斯悖論有望支撐長期推理算力需求。傑文斯悖論指的是,當技術進步提高了使用資源的效率,但成本降低導致需求增加,底層資源的消耗量反而提升。

根據《DeepSeek-V3/R1推理系統概覽》一文,DeepSeek算了一筆賬:“假定GPU租賃成本爲2美元/小時,總成本爲87072美元/天。如果所有 Tokens全部按照DeepSeek R1的定價計算,理論上一天的總收入爲562027美元,利潤率545%。”

如此高的成本利潤率,讓中小廠商在技術平權之下迎來降本機遇。

記者注意到,當多地政府宣佈政務系統接入DeepSeek、一大批AI公務員上崗時,DeepSeek一體機也頗爲火爆。據不完全統計,至少已有華爲昇騰、中科曙光、浪潮、新華三等60餘家廠商,在加速部署一體機。

“一體機一直都在的,只是DeepSeek非常適合本地化部署。”蘇廉節指出,一體機並不是新產品,就是一個結合算力、存儲和網絡的小型數據中心,“主要由幾個小型服務器構成,用於邊緣側小規模的商用場景”。

在唐興纔看來,大模型一體機是把大模型和硬件(如CPU、GPU、存儲設備等)結合,封裝爲一體化設備。“一體機客戶目前來看主要是國央企、政府、金融機構這些對隱私安全要求比較高的客戶。”唐興才說。

據唐興才觀察,大模型一體機市場玩家主要可分爲系統集成商、應用廠商、模型廠商和GPU資源廠商,具體有華爲、聯想、阿里巴巴、百度、浪潮、新華三、中科曙光等。

“我們主要是大模型應用廠商,會和硬件廠商一起做一體機。因爲客戶想要的是模型+應用場景。”唐興才表示。

“相比傳統的雲方案,大模型一體機具備私有部署、交付便捷、算力門檻低和穩定性的優勢,能夠滿足金融、能源、政務、醫療等數據敏感型行業對於安全和隱私的要求。”摩爾線程方面表示。

據市場反饋,DeepSeek一體機的價格從幾十萬元到數百萬元不等。有創業公司表示,“滿血一體機”價格在150萬—200 萬元。

唐興才表示,200萬元一般能跑滿血版DeepSeek一體機。而另有大模型公司人士表示,一體機售價通常包括硬件+軟件,硬件毛利率約爲15%,軟件毛利率在 40%左右。

據浙商證券測算,隨着DeepSeek快速部署需求的增加,一體機的市場需求有望顯著增長,預計2025—2027 年,一體機需求量將分別達到15萬臺、39萬臺和72 萬臺,未來三年DeepSeek一體機市場空間有望達到1236 億元、2937 億元和 5208 億元。

唐興才所在公司剛開始推一體機,市場反響還可以。“現在還看不清,等幾個月看看吧。”他對市場前景謹慎樂觀。