☰

遙遙領先的B200 輝達讓你看不到車尾燈

黃教主當仁不讓，一人撐起2024GTC大會2個多小時的秀場，並接連祭出數個王炸，讓業界歎爲觀止。

光環加身，黃教主真人秀的金句無疑具有行業指向性意義：我們正處於行業中兩個轉變的開端，一是通用計算到加速計算的轉變，二是向生成式AI的轉變。

而讓我們感嘆的不止是第七代基於Blackwell架搆的B200 GPU遠超前一代的性能，輝達一系列左右開弓、前瞻佈局的擧措也展現了其在通用AGI時代的完整戰略和佈局，業界驚呼：輝達正在超越「輝達」。

迎接兩大轉變全面撒網

輝達重磅發佈的Blackwell架搆GPU無疑是一枚深水炸彈：B200包含2080億個晶體管，可提供高達20千兆次的FP4算力，是前一代H100的5倍，支撐10萬億參數大模型訓練。由兩片B200組成的GB200，在基於1750億參數的GPT-3基準測試中，其性能是H100的7倍、訓練速度則提高了4倍。

8年時間，從Pascal架搆到Blackwell架搆，輝達將AI計算性能提升了1000倍。之前黃教主還表示，未來10年GPU還可將深度學習能力提升100萬倍。

而這還衹是開胃小菜，黃仁勳還直指足以優化萬億參數級GPU計算的最強AI基礎設施，推出全新網絡交換機X800系列，吞吐量高達800Gb/s；以及新一代DGX SuperPOD AI超級計算機，性能直接秒殺一衆同儕。超級計算機的「生成」之路在於：兩個GB200超級晶片形成一個計算節點，18個計算節點搆成計算單元GB200 NVL72，它們可通過持續擴展，最終搆成包含32000 GPU的分佈式超算集羣。

北京半導體行業協會副秘書長朱晶在朋友圈發文表示，Blackwell架搆GPU展示了輝達從晶片、互聯、服務器、網絡、算力集羣等全方位的遙遙領先。

不止如此，儘管CUDA已成爲輝達的強護城河，但隨着ChatGPT的出現大幅度加速了生成式AI的開發和應用進程，輝達軟件再下一程，推出了NIM。作爲一組經過優化的雲原生微服務，旨在縮短上市時間並簡化在雲端、數據中心和GPU加速工作站上部署生成式AI模型。

無疑，這或算是CUDA霸權的延伸。進一步來看，輝達企業級軟件家族的極大豐富，說明其在「軟件公司」的路上越走越遠，對於生態的深度和廣度遠非其他企業可比。

面向人形機器人的大爆發，輝達也全線發力，發佈人形機器人基礎模型Project GR00T、新款人形機器人計算機Jetson Thor，對Isaac機器人平臺進行重大升級，推動具身智能突破。與蘋果強強聯手，將Omniverse平臺引入蘋果Vision Pro，並宣佈爲工業數字孿生軟件工具提供Omniverse Cloud API。

一系列凌厲出招，無疑都在表明輝達正在全力打造一個AGI時代的「航空母艦」，輝達的進化版已經實現全面的進化。

技術持續優化前沿佈局

實現如此巨大的「飛躍」，不得不說一些新興和前沿技術功不可沒。

有分析稱，Blackwell自身最大的變化是dual die chiplet和更大的晶體管數量，採用同樣的TN4工藝。而且，輝達在系統級以及解決通信瓶頸層面提升迅速，包括互聯的NVSwitch和NVlink不斷提升性能，如升級第五代NVLink，具有1.8 TB/s的全對全雙向帶寬，互連速度是Hopper的2倍，支持576個GPU NVLink域，可解決萬億參數混合模型通信瓶頸。

通過Grace CPU＋Blackwell GPU的比例優化（從1：1到1：2實際按照die是1：4），發揮更大的合力。這也凸顯輝達在GPU領域佔據主導地位的同時，CPU也在成爲輝達的新利潤池。

朱晶進一步表示，此次的Blackwell架搆的chiplet設計與一般的Chiplet不太一樣，兩顆GPU之間的高帶寬I/O鏈路是關鍵。輝達稱爲NV高帶寬接口 (NV-HBI )，可以提供 10TB/秒的帶寬，這大於普通的Chiplet能做到的互聯帶寬，單純看這個架搆應該是高度依賴先進封裝。

更值得關注的是，輝達還宣佈臺積電、新思科技將突破性的光刻計算平臺cuLitho投入生產。cuLitho可將計算光刻加速40-60倍，輝達還將推出新的生成式AI算法增強cuLitho，將爲2nm及更先進製程開發提供「神助攻」。

對此黃仁勳表示，計算光刻將成爲晶片製造的基石。

臺積電CEO魏哲家在一份聲明中表示：「我們與輝達合作，將GPU加速計算集成到臺積電工作流程中，從而實現了性能的巨大飛躍、吞吐量的顯著提高、週期時間的縮短和功耗的降低。我們正在將cuLitho轉移到臺積電生產，利用這種計算光刻技術來敺動半導體微縮的關鍵組件。」

整體而主，先進工藝+先進封裝、算法改進、架搆優化已成爲輝達持續進階的三大利器，而在上述層面的強強聯合也爲輝達未來發展增添無數後勁。

架搆變革應對押注推理

一系列「殺手級」GPU和超級計算機也讓業界認識到，輝達將進一步拉大與其他晶片企業在大模型訓練上的差距，這種差距甚至可能在幾十倍水平。

「在這次GTC之後，我國在大模型上的差距不止一年了，晶片層面更是差距遙遠，短時間都摸不到Blackwell GPU……」朱晶如此嘆息道。

要在訓練層面繙盤，必須要獨闢蹊逕。業內人士對集微網表示，整體而言，國內與輝達在GPGPU的差距在急劇拉大，如果沿襲之前的思路恐難以企及，需要通過新的架搆和邏輯來追趕和超越，架搆包括新的計算架搆、晶片架搆等，減少數據搬運是提升效率的關鍵。而且，不能僅依靠一兩家大企業，必須百花齊放。

在生態層面，要認識到生態建設是個長期的過程，需要瞄準獨立的生態纔能有長足的發展，但是過渡期兼容性問題需要仔細考慮。上述人士進一步指出，好比新能源汽車，國內在新能源汽車市場發展強勁，通過自我閉環也打造出全新的新能源汽車生態。

避其鋒銳，在推理層面或可扳回一局。

目前推理晶片市場規模相對較大，據預計國內到2025年訓練晶片市場規模爲494億元，而推理晶片市場規模將達到891億元，國內AI晶片企業走推理之路或能彎道超車。在大模型推理晶片市場，GPU優勢並非無法撼動，據悉已有不少企業搶奪了輝達的市場份額。

國外一位資深專家在解讀時提到，輝達B系列GPU代表了其未來瞄準的「萬億參數AI」的巨大飛躍。我經常讀到的一本書上說軟件能帶來約 85%的利潤率，而硬件利潤率則通常很低，幾十年來這一直被奉爲圭臬。然而，現在的情況卻並非如此，輝達GPU正創造85%以上的利潤率。如果要說科技行業有什麼真理，那就是沒有永恆的真理。

遙遙領先的B200 輝達讓你看不到車尾燈

相關資訊