☰

AI“盜火者”DeepSeek，正立於風雪

“希臘神話中，普羅米修斯爲了造福人類，冒着危險從太陽神處盜取火種，並帶到了人間。從此，人類結束了漫長艱難的黑暗時代。”

正值中國傳統春節之際，全國人民沉浸在祥和喜慶的氛圍當中。但在科技領域裡，一場從春節前夕便開始掀起的技術革命正席捲着整個行業，並大有愈演愈烈之勢。

1月20日，中國AI創新企業深度求索（DeepSeek）正式發佈了推理模型DeepSeek-R1，以及同步開源模型權重。一經發布，便以其驚人的性能和成本引爆了全球AI科技圈，甚至造成了美股的大幅震盪。而DeepSeek應用也登頂蘋果中美兩地應用商店免費APP下載排行榜。

一時間，世界各地都在熱議DeepSeek。然而，美國當地時間1月28日，多名美國官員迴應DeepSeek對美國的影響，表示DeepSeek是“偷竊”，正對其影響開展國家安全調查。新任白宮人工智能和加密貨幣負責人David Sacks在接受福布斯的採訪時認爲：“DeepSeek“可能”竊取了美國的知識產權才得以崛起。”

由此，DeepSeek也被頂上了全球輿論的風口浪尖。

“蒸餾”技術再引爭議

此次美國政府對DeepSeek進行指控的主要焦點，在於DeepSeek訓練模型時採用的“模型蒸餾(Model Distillation)”技術。

據瞭解，模型蒸餾是AI大模型主流壓縮技術中的一種。其目的是在保留模型性能的前提下，將複雜的、大體量的AI大模型，壓縮成爲體量相對較小的AI模型。從而減少企業部署AI模型的成本，提高模型的推理效率。

這個過程中，將分別涉及一個被稱爲“教師模型（Teacher Model）”和一個“學生模型（Student Model）”兩個角色。其中，教師模型就是壓縮前的AI大模型，學生模型即壓縮之後的模型，並往往是一個新建的模型。蒸餾過程中，將對教師模型和學生模型輸入相同的token，並引導學生模型的最終輸出內容趨同於教師模型的最終輸出內容。

通常情況下，教師模型會使用已經被訓練好的成熟的AI大模型。此次，David Sackss對福克斯新聞說，有“重大證據”表明DeepSeek從美國公司OpenAi的大模型中蒸餾知識。

OpenAI亦表示已經發現證據，證明了DeepSeek利用他們的模型進行訓練，涉嫌侵犯知識產權。在OpenAI的使用協議中，用戶被禁止使用輸出開發競爭模型。不過，OpenAI公司並未提供證據的細節。

在AI領域中，模型蒸餾是一種業內常用的提高大模型訓練速度的技術手段。例如Claude、豆包、Gemini、Llama3.1等多個模型均經過知識蒸餾。

對於模型蒸餾是否合法，業內有較大的分歧。在傳統的軟件行業中，代碼的直接複製抄襲是侵犯了知識產權。但AI領域中，模型蒸餾的本質上是“學習”而非“複製”，所以AI 訓練數據本身的版權問題仍然存在爭議。

有些公司會通過附加使用條款，來限制未經授權的 API 訪問和商業模型數據的濫用。例如2023年12月份，字節跳動被曝光出正在研發一個名爲“種子計劃”（Project Seed）的AI大模型項目中，在訓練和評估模型等多個研發階段調用了OpenAI的API，並使用ChatGPT輸出的數據進行模型訓練，因此被OpenAI封禁了使用權限。

然而，當前並無直接證據能證明DeepSeek的大模型是通過對OpenAI模型的蒸餾。

首先， DeepSeek發佈的v3和R1均爲開源模型，而OpenAI自GPT-2後，便採取了閉源策略。並且DeepSeek的核心技術之一的思維鏈（COT）幾乎不可能通過蒸餾一個閉源模型而獲得。

其次，在多數情況下，若教師模型採用其他公司的成熟模型，學生模型在學習過程中會產生損失（loss），且最終輸出內容會有一定的相似特徵。而有技術人士通過測試兩者在AIME2024的表現時，差異是比較明顯的，DeepSeek-R1在部分學科的表現要更優於OpenAI-o1。

另據DeepSeek早前發佈的V3模型的技術文檔顯示：針對推理相關數據集（如數學、代碼競賽、邏輯謎題等），DeepSeek-V3利用之前訓練好的 DeepSeek-R1模型生成數據後，再使用結合了監督微調（SFT）和強化學習（RL）訓練的專家模型來蒸餾生成最終的數據；針對非推理數據（如創意寫作、角色扮演、簡單問答等），使用DeepSeek-V2.5生成回覆，並由人類驗證數據的準確性和正確性。

由此來看，DeepSeek確實使用了蒸餾技術，但僅僅是用於對其自身模型的迭代優化。

“攪局”還是“創新”

有觀點認爲，此次openAI開始圍剿DeepSeek，最主要原因是其擊碎了openAI的對行業的技術壟斷。

比如在此之前，只有openAI採用長思維鏈(Long-CoT)模式代替了傳統的提示鏈(Prompt chain)模式，並取得了更好的推理效果。但如今DeepSeek不僅做到同樣的水準，還將其開源了出來。

OpenAI首席研究官Mark Chen也承認道，DeepSeek的確獨立發現了一些o1的核心idea。

不過， DeepSeek之所以如此出圈，不止是其對標openAI的技術追趕。相反，DeepSeek的諸多創新和實踐已經遠遠領先於全球AI行業。只是不同於openAI由0到1的創新，DeepSeek更多的是工程方面的創新。

例如此次發佈的R1-Zero模型中，最受人矚目的當屬其顛覆性的強化學習（RL）策略。

按照DeepSeek的介紹，DeepSeek-R1-Zero直接將RL應用於基座模型，沒有經過任何的監督式微調（SFT）。即讓模型自己去進行學習，在此過程中不做人工干預。

有技術人士將這一過程比喻爲嬰兒學習走路，在不借助外力的情況下，自己進行適應學習和內部協調，也能達到良好訓練結果。而這也是DeepSeek帶給行業最大的啓發。

不僅如此，DeepSeek超低的訓練成本也徹底顛覆了原來的市場認知。

從時間維度上來看，2024年5月，DeepSeek發佈V2模型，其API調用定價爲每百萬tokens輸入1元、輸出2元（32K上下文），價格爲當時GPT-4-Turbo的近百分之一。讓一衆國產AI大模型廠商關注到巨大的成本降幅空間，由此紛紛下調大模型服務價格。部分廠商甚至宣佈免費開放大模型的使用權限。因此，當時有媒體稱大模型進入“免費時代”。

同年12月，DeepSeek又發佈了升級的V3模型。根據其他媒體報道，V3模型僅用了2048塊GPU，訓練了不到2個月，共花費約550多萬美元。而GPT-4o模型訓練成本約爲1億美元，這意味着DeepSeek的成本只有GPT-4o的1/20。

這歸功於DeepSeek在新模型中，引入了諸如混合專家（MoE）、低秩注意力（MLA）、多token預測、FP8混合精度、GPU部署優化等多個創新設計和技術突破。使其在有限的資源算力下，實現了更高效的資源調度。

客觀來看，DeepSeek的創新和開源極大加速了AI行業的發展進程。

有報道稱，Meta已經成立了四個專門研究小組來研究DeepSeek的工作原理，並將基於此來改進旗下大模型Llama。

蘋果CEO庫克也在近日的投資者電話會議上，解釋稱這一具有顛覆性的新模型對蘋果而言是一項積極進展。

在部分社交媒體的發言上，能看出DeepSeek的成功極大鼓舞了很多AI初創企業的從業人員對未來的信心。而相比之前，絕大部分初創企業受制於資金的限制而難以躋身行業前列。

因此，有觀點認爲DeepSeek幫助了整個AI行業實現了歷史性的跨越。

中美暗戰是否升級

截至目前，國際輿論對DeepSeek呈現出了較爲矛盾的兩極分化。例如在美國白宮質疑DeepSeek可能影響國家安全的前一天，特朗普纔剛剛對其予以了較爲積極的評價。

當前，DeepSeek並未迴應任何質疑或指控，不過已經有多個國家或地區的相關部門對此作出反應。

意大利的Google Play 和蘋果 App Store 已經率先下架DeepSeek應用。此前，意大利隱私監管機構 Garante 表示，正要求DeepSeek 提供關於個人數據使用問題的解釋。

1月29日，澳大利亞國庫部長吉姆·查默斯呼籲公民，在使用中國初創公司深度求索的人工智能模型時須謹慎。

1月30日，愛爾蘭數據保護委員會要求DeepSeek就其人工智能大模型如何使用用戶數據提交報告。

而美國的態度則讓市場開始擔憂，DeepSeek是否會繼中興、華爲、抖音之後，成爲另一箇中美角逐的新戰場。

當地時間1月31日，美國衆議院首席行政事務官向國會辦公室發出通知，警告國會辦公室不要使用中國的人工智能應用DeepSeek的服務。

三天前，已有媒體曝光美國海軍已要求人員避免以任何形式使用DeepSeek模型，基於“潛在安全和道德問題”。

美國商務部長提名人Howard Lutnick在提名確認聽證會上稱：DeepSeek“竊取美國知識產權”，承諾要在就任後嚴格執行對中國的出口管制，以阻止中國“使用美國的技術與美國競爭”。

Claude的創始人Dario Amodei在近日發表博客，稱：DeepSeek的進展讓美國對中國的芯片出口管制政策，比一週前更加關乎美國的“生死存亡”，並要求美國加強對中國的芯片封鎖。

此外，在1月30日凌晨，中國奇安信XLab實驗室監測發現，針對DeepSeek、線上服務的攻擊烈度突然升級，其攻擊指令較1月28日暴增上百倍。奇安信安全專家透露，DeepSeek這次受到的網絡攻擊，IP地址都在美國。

360創始人周鴻禕則針尖對麥芒地宣佈，將無償爲DeepSeek提供全方位網絡安全防護，並同步在旗下納米AI搜索開通“DeepSeek高速專線”，啓用最高規格的R1高速專線和專屬防攻擊機房。

部分市場觀點認爲，DeepSeek證明了中國已經突破了美國實施的芯片和算力封鎖。而不久前的1月13日，美國前總統拜登離任前剛剛簽署《人工智能擴散暫行最終規則》，對AI計算數據中心的芯片建立了三級許可制度，限制了包括中國在的內多個國家對先進GPU的獲取。

有業內人士判斷，未來算力將不再是AI模型訓練的瓶頸。這也是此次市場反應劇烈的原因。

DeepSeek發模型，英偉達買單？

當DeepSeek於1月20日發佈新模型後，隨着市場熱度的不斷飆升，最終引發了美股大型科技股集體暴跌，一天內蒸發了超過1.3萬億美元，粗略估算，相當於減少了超過10萬億元人民幣。

週一（27日），全球最大芯片公司英偉達跳水17%，市值蒸發近5900億美元，創下美股公司單日市值最大蒸發的歷史記錄。不僅如此，包括芯片製造商博通公司、臺積電、甲骨文、Marvell、美光科技等跌幅均在10%以上。造成當日美國納斯達克指數也因此下滑了3.1%；費城半導體指數下跌9.15%。

此外，市場情緒還波及到了與AI關係密切的電力能源股，美國聯合能源公司股價下跌21%，Vistra的股價下跌29%。

有傳言稱，DeepSeek母公司幻方量化做空了英偉達；也有觀點認爲DeepSeek繞過了英偉達所構建的行業生態，引發了市場對英偉達的價值重估。

但目前爲止，沒有跡象表明此次幻方量化通過做空英偉達或其他美股公司獲利；而DeepSeek事實上也沒有突破英偉達的行業生態。

據瞭解，CUDA是英偉達設計的基於GPU的通用並行計算平臺和編程模型，也是英偉達所有產品和服務的堅實基座，由此構建出的軟件和硬件生態是其最重要的護城河。

目前，業內絕大部分模型訓練框架均需依賴CUDA內核，例如Pytorch是當前市場上主流的模型訓練框架，而DeepSeek的模型也正是基於Pytorch的訓練框架。

此外，CUDA與英偉達自己的GPU硬件結合得更加緊密，可以更有效地利用其性能。並且在多張GPU的通信方面，業內也普遍認可英偉達的效率更加高效。

因此，以目前DeepSeek的技術和規模還難以達到能繞開英偉達生態的程度。甚至由於AI大模型訓練和部署效率的大幅提升，可能會吸引更多參與者入局，從而增加了市場整體對英偉達GPU產品的需求。

但無論如何，DeepSeek確實是讓投資者開始重新審視AI科技股的估值方式，也極大地啓發了業內對AI行業未來的創新模式和發展方向產生新的思考。

AI“盜火者”DeepSeek，正立於風雪

相關資訊