☰

DeepSeek 的“修煉”之路，還要闖幾關？

來源：半月談微信公衆號

以小博大、逆襲吊打，曾是修仙爽文、微短劇裡讓人上頭卻略顯荒誕的劇情，而今，DeepSeek(深度求索)讓它在真實世界裡發生了。

火爆全球超過一個月，DeepSeek掀起的風暴還在持續，隨之而來的還有一波三折的戲碼，同行的圍剿、跨界的爭議……正如影視作品中每一位“爽文大女主”升級打怪時所面對的關卡一樣。

譽滿天下，謗亦隨之，DeepSeek的“修煉”之路，還要闖幾關？

“爽文大女主”出三招

悄悄推出兩款模型，即引發硅谷與華爾街的劇烈震盪，讓OpenAI接連推出競爭產品並免費開放搜索，谷歌一股腦兒發佈“滿血版全家桶”，國內大廠的旗艦模型也開始免費開放。

深有“天上掉餡餅”之感的萬千普通用戶，倒是想給DeepSeek送錦旗了，不過，大家也想知道，憑一己之力就把曾經高不可攀的全球最頂級大模型的價格打下來了，究竟用了什麼招？

——“亂”拳打傷老師傅。從架構到工程，從算法到部署，DeepSeek悟透的是“四兩撥千斤”的中國武術古訓，不理會“參數規模決定論”，反倒是秀出了數據質量優化與算法架構創新的乘數效應，在看似不可能的壁壘中突圍。

——拆掉半壁衛城牆。一般來說，大模型開發者用了英偉達的GPU，也就得用他家的運算平臺CUDA搞研發。畢竟CUDA已經封裝好一些函數，後來者使用時直接調用接口搞加工就行，這樣的低門檻當然方便資源有限的開發者，但是，這也意味着深度研發執行效率的折扣。

繞過CUDA，直接基於GPU的驅動函數開發，行不行？DeepSeek給出了肯定的答案。憑藉獨到軟件算法優化，拆掉英偉達“衛城牆”，也就是不必仰賴其CUDA生態行事，DeepSeek走出了一條中國AI技術創新的新路子。

——小力也能出奇跡。自從OpenAI的ChatGPT發佈以來，微軟、谷歌、Meta等科技巨頭一直在增加與人工智能相關的算力支出。“軍備競賽”式的投入，也催動了美國AI芯片股價一路攀升。

就當行業仍困囿於“算力軍備競賽”的思維定式之際，DeepSeek憑藉區區558萬美元訓練成本就讓V3模型達到了GPT-4o九成功力，R1模型更實現以純強化學習突破推理能力邊界，向世界證明，AI大模型的革命，不一定要靠算力堆出來。

是幻覺還是“真香”

DeepSeek的小而精、強且美，是炒作出來的“幻覺”，還是厚積薄發而得的“真香”？

自從在AI江湖中亮出名號，DeepSeek就不滿足於追隨者，這可以從其開發的一系列原創技術獲得證明。MLA、GRPO、R1-Zero……門外漢對着這些字母大概會如墜五里霧中，但是，這些技術合力激發的“聚變”，恐怕是DeepSeek獲得140多個國家用戶認可的根本原因。

北京白領小遊說，DeepSeek的回答不像GPT的回答那麼幹巴巴，像個只會寫材料的書呆子，按部就班安排任務步驟，而像個鬼馬精靈，只要你說明目的，她就能拆解和揣摩你的弦外之音、思考怎麼實現你想要的：“甚至你可以問她一些你都沒有答案的大問題。”

當然，DeepSeek依然在蓬勃的成長期。以最新的DeepSeek-R1爲例，雖然其突破鼓舞人心，但學術界用起來還不免有點頭疼——面對悠遠文明時間中的複雜因果，現代學術論述的複雜規範，DeepSeek的回答還不免左支右絀。

而且，DeepSeek暫時還不諳圖像處理，迴應大規模用戶需求也有“體力不支”的情況，這些困難都意味着，DeepSeek的修煉，“高原期”剛剛開始。

如何學習文明的智慧

技術革命的浪潮裡，沒有永恆的王者，只有不斷的超越。具體到AI領域，大家的共識更是：充滿不確定性、一直充滿熱度、但不乏過度反應。

無休止的波動，折射出的，其實是科技進化的深層圖像——人工智能，就好像之前種種引發文明革命的重大科技進展一樣，前進路線並非筆直的線性軌跡，而是永恆的螺旋。

誰來驅動這螺旋？不論DeepSeek參演的是爽劇還是正劇，角色與劇本背後的導演還是人類自己。

如果說AI是普羅米修斯之火，那麼人類文明就是在自我顛覆中奔流不息、江聲浩蕩的赫拉克利特之河。我們最珍貴的不是回答和解決已有問題的能力，而是發現新問題的智慧、定義新問題的勇氣——這更需要創造性與想象力。

DeepSeek式創新的下一次突破，其通關密碼，就生成於迴向文明深處尋求思考變革的努力中。以文明賦能人工智能，人工智能的“飛昇”時刻，也許就會到來。

原標題《DeepSeek的修煉之路》

半月談記者：張漫子

(半月談微信公衆號)

相關資訊