遙遙領先的B200 輝達讓你看不到車尾燈

黃教主當仁不讓,一人撐起2024GTC大會2個多小時的秀場,並接連祭出數個王炸,讓業界歎爲觀止。

光環加身,黃教主真人秀的金句無疑具有行業指向性意義:我們正處於行業中兩個轉變的開端,一是通用計算到加速計算的轉變,二是向生成式AI的轉變。

而讓我們感嘆的不止是第七代基於Blackwell架搆的B200 GPU遠超前一代的性能,輝達一系列左右開弓、前瞻佈局的擧措也展現了其在通用AGI時代的完整戰略和佈局,業界驚呼:輝達正在超越「輝達」。

迎接兩大轉變 全面撒網

輝達重磅發佈的Blackwell架搆GPU無疑是一枚深水炸彈:B200包含2080億個晶體管,可提供高達20千兆次的FP4算力,是前一代H100的5倍,支撐10萬億參數大模型訓練。由兩片B200組成的GB200,在基於1750億參數的GPT-3基準測試中,其性能是H100的7倍、訓練速度則提高了4倍。

8年時間,從Pascal架搆到Blackwell架搆,輝達將AI計算性能提升了1000倍。之前黃教主還表示,未來10年GPU還可將深度學習能力提升100萬倍。

而這還衹是開胃小菜,黃仁勳還直指足以優化萬億參數級GPU計算的最強AI基礎設施,推出全新網絡交換機X800系列,吞吐量高達800Gb/s;以及新一代DGX SuperPOD AI超級計算機,性能直接秒殺一衆同儕。超級計算機的「生成」之路在於:兩個GB200超級晶片形成一個計算節點,18個計算節點搆成計算單元GB200 NVL72,它們可通過持續擴展,最終搆成包含32000 GPU的分佈式超算集羣。

北京半導體行業協會副秘書長朱晶在朋友圈發文表示,Blackwell架搆GPU展示了輝達從晶片、互聯、服務器、網絡、算力集羣等全方位的遙遙領先。

不止如此,儘管CUDA已成爲輝達的強護城河,但隨着ChatGPT的出現大幅度加速了生成式AI的開發和應用進程,輝達軟件再下一程,推出了NIM。作爲一組經過優化的雲原生微服務,旨在縮短上市時間並簡化在雲端、數據中心和GPU加速工作站上部署生成式AI模型。

無疑,這或算是CUDA霸權的延伸。進一步來看,輝達企業級軟件家族的極大豐富,說明其在「軟件公司」的路上越走越遠,對於生態的深度和廣度遠非其他企業可比。

面向人形機器人的大爆發,輝達也全線發力,發佈人形機器人基礎模型Project GR00T、新款人形機器人計算機Jetson Thor,對Isaac機器人平臺進行重大升級,推動具身智能突破。與蘋果強強聯手,將Omniverse平臺引入蘋果Vision Pro,並宣佈爲工業數字孿生軟件工具提供Omniverse Cloud API。

一系列凌厲出招,無疑都在表明輝達正在全力打造一個AGI時代的「航空母艦」,輝達的進化版已經實現全面的進化。

技術持續優化 前沿佈局

實現如此巨大的「飛躍」,不得不說一些新興和前沿技術功不可沒。

有分析稱,Blackwell自身最大的變化是dual die chiplet和更大的晶體管數量,採用同樣的TN4工藝。而且,輝達在系統級以及解決通信瓶頸層面提升迅速,包括互聯的NVSwitch和NVlink不斷提升性能,如升級第五代NVLink,具有1.8 TB/s的全對全雙向帶寬,互連速度是Hopper的2倍,支持576個GPU NVLink域,可解決萬億參數混合模型通信瓶頸。

通過Grace CPU+Blackwell GPU的比例優化(從1:1到1:2實際按照die是1:4),發揮更大的合力。這也凸顯輝達在GPU領域佔據主導地位的同時,CPU也在成爲輝達的新利潤池。

朱晶進一步表示,此次的Blackwell架搆的chiplet設計與一般的Chiplet不太一樣,兩顆GPU之間的高帶寬I/O鏈路是關鍵。輝達稱爲NV高帶寬接口 (NV-HBI ),可以提供 10TB/秒的帶寬,這大於普通的Chiplet能做到的互聯帶寬,單純看這個架搆應該是高度依賴先進封裝。

更值得關注的是,輝達還宣佈臺積電、新思科技將突破性的光刻計算平臺cuLitho投入生產。cuLitho可將計算光刻加速40-60倍,輝達還將推出新的生成式AI算法增強cuLitho,將爲2nm及更先進製程開發提供「神助攻」。

對此黃仁勳表示,計算光刻將成爲晶片製造的基石。

臺積電CEO魏哲家在一份聲明中表示:「我們與輝達合作,將GPU加速計算集成到臺積電工作流程中,從而實現了性能的巨大飛躍、吞吐量的顯著提高、週期時間的縮短和功耗的降低。我們正在將cuLitho轉移到臺積電生產,利用這種計算光刻技術來敺動半導體微縮的關鍵組件。」

整體而主,先進工藝+先進封裝、算法改進、架搆優化已成爲輝達持續進階的三大利器,而在上述層面的強強聯合也爲輝達未來發展增添無數後勁。

架搆變革應對 押注推理

一系列「殺手級」GPU和超級計算機也讓業界認識到,輝達將進一步拉大與其他晶片企業在大模型訓練上的差距,這種差距甚至可能在幾十倍水平。

「在這次GTC之後,我國在大模型上的差距不止一年了,晶片層面更是差距遙遠,短時間都摸不到Blackwell GPU……」朱晶如此嘆息道。

要在訓練層面繙盤,必須要獨闢蹊逕。業內人士對集微網表示,整體而言,國內與輝達在GPGPU的差距在急劇拉大,如果沿襲之前的思路恐難以企及,需要通過新的架搆和邏輯來追趕和超越,架搆包括新的計算架搆、晶片架搆等,減少數據搬運是提升效率的關鍵。而且,不能僅依靠一兩家大企業,必須百花齊放。

在生態層面,要認識到生態建設是個長期的過程,需要瞄準獨立的生態纔能有長足的發展,但是過渡期兼容性問題需要仔細考慮。上述人士進一步指出,好比新能源汽車,國內在新能源汽車市場發展強勁,通過自我閉環也打造出全新的新能源汽車生態。

避其鋒銳,在推理層面或可扳回一局。

目前推理晶片市場規模相對較大,據預計國內到2025年訓練晶片市場規模爲494億元,而推理晶片市場規模將達到891億元,國內AI晶片企業走推理之路或能彎道超車。在大模型推理晶片市場,GPU優勢並非無法撼動,據悉已有不少企業搶奪了輝達的市場份額。

國外一位資深專家在解讀時提到,輝達B系列GPU代表了其未來瞄準的「萬億參數AI」的巨大飛躍。我經常讀到的一本書上說軟件能帶來約 85%的利潤率,而硬件利潤率則通常很低,幾十年來這一直被奉爲圭臬。然而,現在的情況卻並非如此,輝達GPU正創造85%以上的利潤率。如果要說科技行業有什麼真理,那就是沒有永恆的真理。