賽道Hyper | AMD蘇姿豐:敢笑業界無男兒!

作者:周源/華爾街見聞

如果說中國的三國時代,本質上是一堆親戚的內戰,那麼當今的AI芯片公司,AMD最高領導人蘇姿豐與英偉達的皮衣教主黃仁勳,也很有些親戚幹仗的意味:武器是蘇姿豐帶來的Ryzen(銳龍)9000系列CPU、AI PC芯片“銳龍AI 300系列”、數據中心芯片和GPU。

在英偉達CEO黃仁勳於6月2日的COMPUTEX 2024技術大會發表AI主題相關的演講、並公佈GPU和互連路線圖不到15個小時,AMD CEO蘇姿豐(Lisa Su)於6月3日在同一場合更新了AMD公司的AI加速卡Instinct GPU系列路線圖。

蘇姿豐用一大批即期和中遠期產品展現了AMD在AI領域的雄心和對未來技術發展的承諾:今年四季度,AMD會推出全新AI加速芯片Instinct MI325X,2025年是MI350,2026年推出MI400。

簡要而言,作爲現有MI300系列的升級版,Instinct MI325X AI加速卡採用CDNA 3架構。這款加速卡將配備高達288GB的HBM3E內存和6TB/s的內存帶寬,提供1.3PFLOPs的FP16和2.6PFLOPs的FP8計算性能,能夠處理高達1萬億參數的服務器。

蘇姿豐表示,MI325X的AI性能提升幅度爲AMD史上最大,相較競品英偉達H200將有1.3倍以上的提升,故而更具性價比優勢。

根據AMD Instinct GPU系列路線圖,計劃在2025年推出的MI350系列,將基於下一代CDNA 4架構,並與OAM(Optimized Accelerated Matrix)兼容。MI350系列將基於3nm工藝技術,提供與MI325X 一樣的高達288GB的HBM3E內存,支持FP4/FP6數據類型。

MI400系列,預計在2026年推出,基於全新CDNA Next架構。性能方面,CDNA 3架構預計將比CDNA 2提高8倍,而CDNA 4架構預計將比CDNA 3提供大約35倍的AI推理性能提升。AMD沒有披露CDNA Next架構的性能對比參數。

最強AI PC芯片:強在哪裡

與上述“中遠期”產品相比,AMD也推出“即時”AI加速卡——代號爲“Strix Point”的第三代AI PC芯片“銳龍AI 300系列”和AMD “Ryzen 9000系列”桌面處理器。

其中“銳龍AI 300系列”性能之強悍,讓蘇姿豐擁有傲視羣雄的底氣:NPU算力高達50TOPS,超過高通驍龍X Elite的45TOPS和英特爾Lunar Lake的40-45TOPS。正所謂:四十萬人齊卸甲,更無一個是男兒。不過這三個公司的CPU算力都達到或超越了微軟AI PC對NPU的算力要求(40TOPS+)。

AMD銳龍AI 300系列,最初的版本是在2023年推出的銳龍7040系列(代號Pheonix)。這是全球首款集成獨立NPU AI引擎的x86處理器,基於當時全新設計的XDNA架構,算力約10TOPS,綜合CPU和GPU後,整體算力約爲33TOPS,一舉奠定AI PC新品類的算力起點。

同年底,也就是2023年底,AMD推出銳龍7040系列的迭代版——代號爲“Hawk Point”的銳龍8040系列,NPU算力提升60%至16TOPS,整體算力也提升到了39TOPS。

這次推出的銳龍AI300系列,爲AMD第三代AI芯片:採用全新的Zen5 PU架構,GPU內核升級爲RDNA3.5架構,NPU更新爲XDNA2架構,號稱是“面向下代AI PC/Copilot+ PC的世界一流處理器”。

目前,AI PC作爲一種新品類,無論是上游的芯片,還是下游的終端,切口都從高端產品開始。

根據蘇姿豐披露的信息,銳龍AI300系列首發兩款型號——銳龍AI 9 HX 370和銳龍AI 9 HX 365,全都定位於高端市場。其中,前者是高端中的高端,屬於頂級旗艦。

銳龍AI 9 HX 370的CPU主頻高達5.1GHz,爲12核心24線程,相比銳龍8040系列,其CPU核心數量增加至少30%,這是多年來首次;二級緩存總容量增至12MB(1MB/核),三級緩存增至前所未有的24MB,此前最高爲16MB。

GPU部分,銳龍AI 9 HX 370升級了相應的技術架構,CU單元數量從12個增至16個,命名爲“Radeon 890M”;NPU算力提升至50TOPS,與銳龍8040系列的NPU算力16TOPS相比,增加3倍多。

銳龍AI 9 365除了主頻是5.0GHz,10核20線程,二級緩存10MB,其他參數與銳龍AI 9 HX 370一致。

XDNA2:首發BF16浮點精度格式

銳龍AI300系列的NPU架構採用的是“面向下代AI PC/Copilot+ PC”的XDNA2架構。

據蘇姿豐現場披露的技術結構圖,與初代XDNA架構相比,XDNA2架構的結構基本不變,但規模擴大:前者的AI計算引擎模塊叫做“AIE Tile”,數量是20個;到了新一代架構,名稱變成“AI Tile”,數量增加至32個。本地內存模塊,從初代的5個增加到8個。

此外,用於互連的交叉總線也從普通的Data Fabric,升級爲Zen/RDNA家族的Infinity Fabric,帶來了更大的傳輸帶寬和更高的數據傳輸效率。

據AMD官方給出的數據:XDNA2 NPU算力提升多達5倍(Llama 2 70億參數大模型的響應速度,從啓動到獲得第一個token),多任務並行能力翻番,能效也提升了最多兩倍。

XDNA2架構還有個技術亮點:引入全新Block FP16(也稱BFloat16或BF16)浮點精度格式,這在NPU上是首次。此前,BF16格式一般在CPU和GPU上應用。

從性能上看,FP8浮點格式性能強,但精度不足;FP16浮點格式則相反,精度高但性能略遜。現在,BF16格式兼具兩者之優,符合目前大多數AI應用的16位精度要求,無需再做額外轉換。

目前,銳龍AI300系列的綜合算力高達50TOPS,超過高通驍龍X Elite NPU和Intel即將發佈的下一代酷睿Ultra Lunar Lake NPU綜合45TOPS算力等級。就參數而言,AMD的銳龍AI300系列NPU算力爲當前業界最強。

據AMD發佈的銳龍AI300系列技術參數,在視頻編輯、多任務處理和3D圖形計算性能方面,銳龍AI 9 HX 370比高通驍龍X Elite,分別提升40%、47%和73%;若與當前Intel當家的酷睿Ultra 9 185H相比,平均性能提升36%;對比蘋果M3,圖形處理性能提升更高達98%。

目測搭載該款XPU的AI PC(筆記本電腦)將快速大量上市,比如華碩、戴爾、惠普、聯想、微星和宏基等,已有100多款新品將從7月陸續上市。

蘇姿豐還帶來了Zen5 Ryzen 9000系列桌面處理器(Granite Ridge),基於Zen5構架,首批產品將於2024年7月底推出。

簡單看看,Ryzen 9000系列是繼Ryzen 7000“Raphael”和Ryzen 8000“Hawk Point”系列之後,AM5插槽的第三個系列,配備兩顆最多有8個核心,最高16個內核和具備32線程的Zen5小芯片。

據AMD官方測試數據,Zen 5內核面向PC平臺的IPC性能相比Zen 4平均提升約16%。與Intel Core i9-14900K相比,Ryzen 9 9950X在遊戲性能測試中的速度快4%-23%;Ryzen 9950X的生產力性能,比Intel Core i9-14900K快7%-56%。