AI“盜火者”DeepSeek,正立於風雪

“希臘神話中,普羅米修斯爲了造福人類,冒着危險從太陽神處盜取火種,並帶到了人間。從此,人類結束了漫長艱難的黑暗時代。”

正值中國傳統春節之際,全國人民沉浸在祥和喜慶的氛圍當中。但在科技領域裡,一場從春節前夕便開始掀起的技術革命正席捲着整個行業,並大有愈演愈烈之勢。

1月20日,中國AI創新企業深度求索(DeepSeek)正式發佈了推理模型DeepSeek-R1,以及同步開源模型權重。一經發布,便以其驚人的性能和成本引爆了全球AI科技圈,甚至造成了美股的大幅震盪。而DeepSeek應用也登頂蘋果中美兩地應用商店免費APP下載排行榜。

一時間,世界各地都在熱議DeepSeek。然而,美國當地時間1月28日,多名美國官員迴應DeepSeek對美國的影響,表示DeepSeek是“偷竊”,正對其影響開展國家安全調查。新任白宮人工智能和加密貨幣負責人David Sacks在接受福布斯的採訪時認爲:“DeepSeek“可能”竊取了美國的知識產權才得以崛起。”

由此,DeepSeek也被頂上了全球輿論的風口浪尖。

“蒸餾”技術再引爭議

此次美國政府對DeepSeek進行指控的主要焦點,在於DeepSeek訓練模型時採用的“模型蒸餾(Model Distillation)”技術。

據瞭解,模型蒸餾是AI大模型主流壓縮技術中的一種。其目的是在保留模型性能的前提下,將複雜的、大體量的AI大模型,壓縮成爲體量相對較小的AI模型。從而減少企業部署AI模型的成本,提高模型的推理效率。

這個過程中,將分別涉及一個被稱爲“教師模型(Teacher Model)”和一個“學生模型(Student Model)”兩個角色。其中,教師模型就是壓縮前的AI大模型,學生模型即壓縮之後的模型,並往往是一個新建的模型。蒸餾過程中,將對教師模型和學生模型輸入相同的token,並引導學生模型的最終輸出內容趨同於教師模型的最終輸出內容。

通常情況下,教師模型會使用已經被訓練好的成熟的AI大模型。此次,David Sackss對福克斯新聞說,有“重大證據”表明DeepSeek從美國公司OpenAi的大模型中蒸餾知識。

OpenAI亦表示已經發現證據,證明了DeepSeek利用他們的模型進行訓練,涉嫌侵犯知識產權。在OpenAI的使用協議中,用戶被禁止使用輸出開發競爭模型。不過,OpenAI公司並未提供證據的細節。

在AI領域中,模型蒸餾是一種業內常用的提高大模型訓練速度的技術手段。例如Claude、豆包、Gemini、Llama3.1等多個模型均經過知識蒸餾。

對於模型蒸餾是否合法,業內有較大的分歧。在傳統的軟件行業中,代碼的直接複製抄襲是侵犯了知識產權。但AI領域中,模型蒸餾的本質上是“學習”而非“複製”,所以AI 訓練數據本身的版權問題仍然存在爭議。

有些公司會通過附加使用條款,來限制未經授權的 API 訪問和商業模型數據的濫用。例如2023年12月份,字節跳動被曝光出正在研發一個名爲“種子計劃”(Project Seed)的AI大模型項目中,在訓練和評估模型等多個研發階段調用了OpenAI的API,並使用ChatGPT輸出的數據進行模型訓練,因此被OpenAI封禁了使用權限。

然而,當前並無直接證據能證明DeepSeek的大模型是通過對OpenAI模型的蒸餾。

首先, DeepSeek發佈的v3和R1均爲開源模型,而OpenAI自GPT-2後,便採取了閉源策略。並且DeepSeek的核心技術之一的思維鏈(COT)幾乎不可能通過蒸餾一個閉源模型而獲得。

其次,在多數情況下,若教師模型採用其他公司的成熟模型,學生模型在學習過程中會產生損失(loss),且最終輸出內容會有一定的相似特徵。而有技術人士通過測試兩者在AIME2024的表現時,差異是比較明顯的,DeepSeek-R1在部分學科的表現要更優於OpenAI-o1。

另據DeepSeek早前發佈的V3模型的技術文檔顯示:針對推理相關數據集(如數學、代碼競賽、邏輯謎題等),DeepSeek-V3利用之前訓練好的 DeepSeek-R1模型生成數據後,再使用結合了監督微調(SFT)和強化學習(RL)訓練的專家模型來蒸餾生成最終的數據;針對非推理數據(如創意寫作、角色扮演、簡單問答等),使用DeepSeek-V2.5生成回覆,並由人類驗證數據的準確性和正確性。

由此來看,DeepSeek確實使用了蒸餾技術,但僅僅是用於對其自身模型的迭代優化。

“攪局”還是“創新”

有觀點認爲,此次openAI開始圍剿DeepSeek,最主要原因是其擊碎了openAI的對行業的技術壟斷。

比如在此之前,只有openAI採用長思維鏈(Long-CoT)模式代替了傳統的提示鏈(Prompt chain)模式,並取得了更好的推理效果。但如今DeepSeek不僅做到同樣的水準,還將其開源了出來。

OpenAI首席研究官Mark Chen也承認道,DeepSeek的確獨立發現了一些o1的核心idea。

不過, DeepSeek之所以如此出圈,不止是其對標openAI的技術追趕。相反,DeepSeek的諸多創新和實踐已經遠遠領先於全球AI行業。只是不同於openAI由0到1的創新,DeepSeek更多的是工程方面的創新。

例如此次發佈的R1-Zero模型中,最受人矚目的當屬其顛覆性的強化學習(RL)策略。

按照DeepSeek的介紹,DeepSeek-R1-Zero直接將RL應用於基座模型,沒有經過任何的監督式微調(SFT)。即讓模型自己去進行學習,在此過程中不做人工干預。

有技術人士將這一過程比喻爲嬰兒學習走路,在不借助外力的情況下,自己進行適應學習和內部協調,也能達到良好訓練結果。而這也是DeepSeek帶給行業最大的啓發。

不僅如此,DeepSeek超低的訓練成本也徹底顛覆了原來的市場認知。

從時間維度上來看,2024年5月,DeepSeek發佈V2模型,其API調用定價爲每百萬tokens輸入1元、輸出2元(32K上下文),價格爲當時GPT-4-Turbo的近百分之一。讓一衆國產AI大模型廠商關注到巨大的成本降幅空間,由此紛紛下調大模型服務價格。部分廠商甚至宣佈免費開放大模型的使用權限。因此,當時有媒體稱大模型進入“免費時代”。

同年12月,DeepSeek又發佈了升級的V3模型。根據其他媒體報道,V3模型僅用了2048塊GPU,訓練了不到2個月,共花費約550多萬美元。而GPT-4o模型訓練成本約爲1億美元,這意味着DeepSeek的成本只有GPT-4o的1/20。

這歸功於DeepSeek在新模型中,引入了諸如混合專家(MoE)、低秩注意力(MLA)、多token預測、FP8混合精度、GPU部署優化等多個創新設計和技術突破。使其在有限的資源算力下,實現了更高效的資源調度。

客觀來看,DeepSeek的創新和開源極大加速了AI行業的發展進程。

有報道稱,Meta已經成立了四個專門研究小組來研究DeepSeek的工作原理,並將基於此來改進旗下大模型Llama。

蘋果CEO庫克也在近日的投資者電話會議上,解釋稱這一具有顛覆性的新模型對蘋果而言是一項積極進展。

在部分社交媒體的發言上,能看出DeepSeek的成功極大鼓舞了很多AI初創企業的從業人員對未來的信心。而相比之前,絕大部分初創企業受制於資金的限制而難以躋身行業前列。

因此,有觀點認爲DeepSeek幫助了整個AI行業實現了歷史性的跨越。

中美暗戰是否升級

截至目前,國際輿論對DeepSeek呈現出了較爲矛盾的兩極分化。例如在美國白宮質疑DeepSeek可能影響國家安全的前一天,特朗普纔剛剛對其予以了較爲積極的評價。

當前,DeepSeek並未迴應任何質疑或指控,不過已經有多個國家或地區的相關部門對此作出反應。

意大利的Google Play 和蘋果 App Store 已經率先下架DeepSeek應用。此前,意大利隱私監管機構 Garante 表示,正要求DeepSeek 提供關於個人數據使用問題的解釋。

1月29日,澳大利亞國庫部長吉姆·查默斯呼籲公民,在使用中國初創公司深度求索的人工智能模型時須謹慎。

1月30日,愛爾蘭數據保護委員會要求DeepSeek就其人工智能大模型如何使用用戶數據提交報告。

而美國的態度則讓市場開始擔憂,DeepSeek是否會繼中興、華爲、抖音之後,成爲另一箇中美角逐的新戰場。

當地時間1月31日,美國衆議院首席行政事務官向國會辦公室發出通知,警告國會辦公室不要使用中國的人工智能應用DeepSeek的服務。

三天前,已有媒體曝光美國海軍已要求人員避免以任何形式使用DeepSeek模型,基於“潛在安全和道德問題”。

美國商務部長提名人Howard Lutnick在提名確認聽證會上稱:DeepSeek“竊取美國知識產權”,承諾要在就任後嚴格執行對中國的出口管制,以阻止中國“使用美國的技術與美國競爭”。

Claude的創始人Dario Amodei在近日發表博客,稱:DeepSeek的進展讓美國對中國的芯片出口管制政策,比一週前更加關乎美國的“生死存亡”,並要求美國加強對中國的芯片封鎖。

此外,在1月30日凌晨,中國奇安信XLab實驗室監測發現,針對DeepSeek、線上服務的攻擊烈度突然升級,其攻擊指令較1月28日暴增上百倍。奇安信安全專家透露,DeepSeek這次受到的網絡攻擊,IP地址都在美國。

360創始人周鴻禕則針尖對麥芒地宣佈,將無償爲DeepSeek提供全方位網絡安全防護,並同步在旗下納米AI搜索開通“DeepSeek高速專線”,啓用最高規格的R1高速專線和專屬防攻擊機房。

部分市場觀點認爲,DeepSeek證明了中國已經突破了美國實施的芯片和算力封鎖。而不久前的1月13日,美國前總統拜登離任前剛剛簽署《人工智能擴散暫行最終規則》,對AI計算數據中心的芯片建立了三級許可制度,限制了包括中國在的內多個國家對先進GPU的獲取。

有業內人士判斷,未來算力將不再是AI模型訓練的瓶頸。這也是此次市場反應劇烈的原因。

DeepSeek發模型,英偉達買單?

當DeepSeek於1月20日發佈新模型後,隨着市場熱度的不斷飆升,最終引發了美股大型科技股集體暴跌,一天內蒸發了超過1.3萬億美元,粗略估算,相當於減少了超過10萬億元人民幣。

週一(27日),全球最大芯片公司英偉達跳水17%,市值蒸發近5900億美元,創下美股公司單日市值最大蒸發的歷史記錄。不僅如此,包括芯片製造商博通公司、臺積電、甲骨文、Marvell、美光科技等跌幅均在10%以上。造成當日美國納斯達克指數也因此下滑了3.1%;費城半導體指數下跌9.15%。

此外,市場情緒還波及到了與AI關係密切的電力能源股,美國聯合能源公司股價下跌21%,Vistra的股價下跌29%。

有傳言稱,DeepSeek母公司幻方量化做空了英偉達;也有觀點認爲DeepSeek繞過了英偉達所構建的行業生態,引發了市場對英偉達的價值重估。

但目前爲止,沒有跡象表明此次幻方量化通過做空英偉達或其他美股公司獲利;而DeepSeek事實上也沒有突破英偉達的行業生態。

據瞭解,CUDA是英偉達設計的基於GPU的通用並行計算平臺和編程模型,也是英偉達所有產品和服務的堅實基座,由此構建出的軟件和硬件生態是其最重要的護城河。

目前,業內絕大部分模型訓練框架均需依賴CUDA內核,例如Pytorch是當前市場上主流的模型訓練框架,而DeepSeek的模型也正是基於Pytorch的訓練框架。

此外,CUDA與英偉達自己的GPU硬件結合得更加緊密,可以更有效地利用其性能。並且在多張GPU的通信方面,業內也普遍認可英偉達的效率更加高效。

因此,以目前DeepSeek的技術和規模還難以達到能繞開英偉達生態的程度。甚至由於AI大模型訓練和部署效率的大幅提升,可能會吸引更多參與者入局,從而增加了市場整體對英偉達GPU產品的需求。

但無論如何,DeepSeek確實是讓投資者開始重新審視AI科技股的估值方式,也極大地啓發了業內對AI行業未來的創新模式和發展方向產生新的思考。