全球最強Arm服務器芯片?叫板四大巨頭
如果您希望可以時常見面,歡迎標星收藏哦~
來源:內容編譯自servethehome,謝謝。
是時候對許多人期待已久的 Ampere AmpereOne A192-32X 進行評測了。在這篇評測中,我們將深入探討性能、功耗,也許最重要的是,使用Supermicro MegaDC ARS-211M-NR 等平臺的感覺如何 ,以及它對行業意味着什麼。
Ampere AmpereOne A192-32X 概述
瞭解 AmpereOne A192-32X 的背景很重要。它是 192 核 3.2GHz(因此是 A192-32X)部件,按照 2024 年的標準來看,這似乎很平凡。據稱,它於 2022-2023 年首次出售,主要在 Oracle Cloud 上。最初流向雲提供商的量意味着它花了相當長的時間才進入其他客戶手中。在 2024 年,情況發生了變化,現在我們有了像Supermicro MegaDC ARS-211M-NR這樣的服務器。
這似乎不是什麼大問題,但這就是 AmpereOne 以 192 個內核進入企業市場時所擁有的大量內核與英特爾如今在下個季度擁有 144 個 250W 的 E 內核以及在 2024 年第三季度擁有 128 個 P 內核(256 個線程)之間的區別。AMD 在第四季度初的處理器現在擁有 192 個內核/每個插槽 384 個線程。或者讓我們這樣說。在 2022-2023 年,192 個內核的 Arm CPU 是超凡脫俗的。到 2024 年,x86 團隊已經基本趕上來了。
Ampere 專注於提供一種可通過容器或虛擬機同時爲多個客戶提供分區的芯片。儘管它宣稱性能如此出色,但讓我們先實事求是一點。Ampere 並非試圖打造一款 HPC CPU。這是一款雲原生芯片。
Ampere 憑藉 AmpereOne 取得進一步發展的一個領域是定價。AmpereOne 的定價高於 Altra Max,但性能更高。不過,英特爾、AMD 和 NVIDIA 並不認爲其芯片的 10,000 美元定價是上限。
AmpereOne 和 Altra Max 之間的另一個重大區別是功能集進行了重大修改。這是 2022 年的原始幻燈片,A192-32X 是 400W 部件。不過,嵌套虛擬化等功能在 AmpereOne 中是新特性。我們還獲得了 PCIe Gen5 和 DDR5 支持。
我們在Hot Chips 2024 的 Ampere AmpereOne 架構上進行了更詳細的介紹, 但 Ampere 也改變了其製造芯片的方式。您看到的中心芯片具有臺積電 5nm 的內核和緩存。主芯片周圍是處理 PCIe 和 DDR5 連接的較小芯片。最終,藉助 AmpereOne M,Ampere 將再添加兩個 DDR5 芯片,並實現與 AMD 和英特爾相匹配的 12 通道 DDR5。目前,我們正在研究 8 通道 DDR5 機器。
雲原生設計的其他一些影響體現在覈心和緩存方面。中心計算塊是 24 個 8 核集羣中的 192 個核心。每個核心都有自己的 2MB L2 緩存,並且不使用 SMT。因此,一個核心就是一個線程。對於擔心未來 Spectre/Meltdown 漏洞的組織來說,一個核心/一個線程可以防止這種情況發生。值得注意的是,英特爾和 NVIDIA 也採用了這種方法。
這款芯片與 Intel Xeon 6 Granite Rapids-AP(甚至是 Sapphire Rapids/Emerald Rapids)或 AMD EPYC 9005“Turin”相比,非常不同的是,它有一個 64MB 的小型共享 L3 緩存。這比 144 核 Intel Xeon 6700E 還要小得多,與 AMD 的 L3 緩存相比更是微不足道。同樣,這款芯片的設計目的是分區並出售給多個客戶,因此從概念上講,在該模型中擁有大型共享 L3 緩存可能具有挑戰性。此外,大型 L3 緩存佔用了大量的芯片面積。
不過,這種方法的一個好處是,由於只有一個計算塊,因此核心到核心的延遲可以比英特爾和 AMD 更好。
Supermicro MegaDC ARS-211M-NR 性能
現在每個人都想知道的是,讓我們聊聊當你獲得 Ampere AmpereOne A192-32X 處理器時會發生什麼。有 192 個核心沒有 SMT,所以有 192 個線程。這與 Intel Xeon 6 6700E Sierra Forest類似,因爲沒有 SMT,而且這更像是 x86 術語中的 E 核而不是 P 核設計。
這款 CPU 表現非常出色的一個方面是讓所有核心都以 3.2GHz 運行。這是在 192 個核心上運行的壓力測試,3.2GHz 時鐘速度是在所有 192 個核心上運行的。
在某些服務器 CPU 架構中,可能會看到一些內核運行得更快,而其他內核運行得稍慢。AmpereOne 的設計使所有內核都能以相同的速度運行。在過去的幾代產品中尤其如此。從 AMD EPYC Bergamo 系列開始,我們已經看到一些競爭性 x86 架構的表現類似。
SPEC CPU2017 結果
SPEC CPU2017 可能是服務器 RFP 中最廣爲人知和使用的基準測試。我們自己進行 SPEC CPU2017 測試,結果通常比 OEM 提交的官方結果低幾個百分點。由於 OEM 爲這些重要的基準測試做了大量優化工作,因此結果始終保持在約 5% 左右。由於目前已經有了官方數據,因此如果我們談論的是行業基準測試,那麼使用官方數據感覺是正確的。
我們在這裡使用官方結果,這意味着優化的編譯器。Ampere 建議使用所有 gcc,並顯示其將 AMD 和 Intel 的評級降至此基準的 gcc 數字。這種討論就像辯論宗教一樣。
有人可能會說 GCC 是最小公分母,所以這是正確的看待這個問題的方式。另一方面,最大的芯片公司 NVIDIA 已經使用 CUDA 和優化的工具鏈達到了這一點。如果我們說我們需要在這裡使用 GCC,那麼我們是否需要避免使用 NVIDIA 的工具來查看其 AI 性能?我們認爲,既然官方分數可以自由使用他們想要的任何編譯器,那應該是我們使用的方法。
首先,Altra Max 和 AmpereOne 之間的性能有了巨大的飛躍。內核增加了 50%,但性能幾乎提高了一倍。
當我們將結果與 AMD 進行比較時,Turin Dense 簡直就是怪物。AMD 的每插槽性能是其兩倍,線程也是其兩倍。Ampere 可能會爭論編譯器,而 1 核/1 線程使其能夠每 CPU 執行 192x 1 vCPU VM。AMD 可能會反駁說,它可以每 CPU 執行 192x 2 vCPU VM。
與英特爾相比,同樣使用不同的編譯器,144 核的英特爾至強 6780E 非常接近。Ampere 可以聲稱它可以每 CPU 執行 192x 1 vCPU VM,而英特爾只能執行 144 個。如果您是雲提供商,則更多的 vCPU 意味着每個系統有更多的客戶。
隨着 Sierra Forest-AP 於 2025 年第一季度推出,我們預計 288 核部分將達到 1250-1410。如果 AmpereOne M 線性擴展到 256 核,則爲 936。這接近 AMD EPYC Bergamo 128 核/256 線程部分。
STH nginx CDN 性能
在 nginx CDN 測試中,我們使用 STH 網站的舊快照和訪問模式,禁用 DRAM 緩存,以顯示從磁盤獲取數據的性能。這需要低延遲的 nginx 操作,但需要額外的低延遲 I/O 訪問步驟,這在服務器級別上很有趣。以下是分佈的快速概覽:
簡單說明一下,我們使用的配置是我們實時配置的快照。在這裡,nginx 是針對 Arm 工作負載進行了非常優化的配置之一,但在是否需要針對 Arm 優化配置方面,我們可能還有一些成長空間。儘管如此,這還是符合我們的預期,因爲 AmpereOne 大致與 Sierra Forest 具有核心對核心競爭力,並且在每個插槽的基礎上領先於 AMD EPYC Bergamo。與 Altra Max 相比,我們的每個核心擴展也略勝一籌。注意:我們最終購買了基於 我們評測過的 ASRock Rack ALTRAD8UD-1L2T的 ASRock Rack 準系統,併爲此構建了一個單插槽 Altra Max 平臺。
由於其他原因,這是一個有點奇怪的基準。爲了讓您理解,如果您每天的頁面瀏覽量低於 100 萬次或每秒 11.5 PV 僅提供相對靜態的內容,那麼您可能可以在單插槽 AmpereOne 192 核心部件上處理這些內容。如果您查看網站的分佈,該網站可能是全球排名前 25,000 的網站之一。對於大多數網站,您可能在幾個 vCPU 上運行,而不是在整個服務器上運行。
MariaDB 定價分析
對我個人來說,這是一個非常有趣的測試。這項測試的起源是,我們有一個工作負載,它對一組來自主要數據中心 OEM 的匿名數據運行交易管理定價分析。該應用程序有效地尋找跨產品線、地區和渠道的定價趨勢,以根據市場趨勢確定好的交易/壞交易指導,從而爲實時 BOM 配置提供信息。如果這看起來非常具體,那麼它與主要供應商部署的東西之間的最大區別在於我們使用的數據。這種應用程序已經轉向人工智能推理方法,但它是企業可能在雲中運行的一個很好的現實世界示例。
就優化注意事項而言,這與 nginx 測試非常相似。開放數據庫在雲實例中得到廣泛使用,因此底層軟件的優化程度可能比我們目前的應用程序移植更好。不過,這實際上是一個現實世界的工具,它已經通過它運行了數百億美元的數據中心硬件交易(當然,使用不同的數據),使其成爲一個非常現實世界的商業應用程序。
與 Cascade Lake Xeon(第二代英特爾至強可擴展處理器)相比,這是一個很大的升級。如果您要升級,那麼您將看到 >5:1 插槽整合。
STH STFB KVM 虛擬化測試
我們想分享的另一個工作負載來自我們的一位 DemoEval 客戶。我們有權發佈結果,但被測試的應用程序本身是閉源的。這是一個基於 KVM 虛擬化的工作負載,我們的客戶正在測試在目標 SLA 下完成工作時,在給定時間內可以在線運行多少臺虛擬機。每個虛擬機都是一個獨立的工作器。就其功能而言,這非常類似於 VMware VMark,只是更通用地使用 KVM。
在這裡,XL 和 L VM 塊結果受到內存佔用的影響,因此實際上,我們正在查看正確的三個結果。這更多地針對雙插槽工作負載進行了調整,但仍然很有趣。總體而言,結果非常好。英特爾至強 6780E 1P 沒有達到這一水平,但您可以假設它比 6766E 略高,因爲它具有類似的核心數,只是由於 TDP 更高而具有更高的時鐘速度。
AmpereOne 在這方面表現不錯,儘管 x86 陣營擁有更高的線程數,這在這方面很有幫助。此外,使用 64GB DIMM,12 通道平臺可獲得更多 RAM 和內存帶寬,這很有幫助。
SSD 和 NIC 性能
對於這些新平臺,重要的一點是不僅要關注 CPU 本身的性能,還要關注所有連接設備的性能。我們試用了 Kioxia CM7 和 Solidigm D7-PS1010 SSD,它們的性能與我們的 Sapphire Rapids 基線平臺相差 1.5% 以內。這在誤差範圍內。
根據所使用的 SSD,我們沒有看到性能受到像 AMD EPYC 9965 那樣的巨大影響。
在我們最近的測試中,我們還看到基於 AMD EPYC 9965 上使用的 NIC 的相當大的影響。我們嘗試了 Broadcom 400GbE NIC。
我們還測試了 NVIDIA CX-6 和 CX-7 解決方案,以獲得雙 100GbE 和雙 200GbE 解決方案的測試。
我們還使用了 NVIDIA BlueField-3 DPU,它有兩個雙 200GbE 連接。這是必要的嗎?當然不是。然而,在 192 個 Arm 核心服務器上添加一張帶有 16 個 Armv8.2+ A78 核心的卡有點有趣,而且很像 Inception。
同樣,與第四代 Intel Xeon 基準相比,這些 NIC 平臺的誤差範圍也處於誤差範圍內。我們不需要像 AMD EPYC 9965 那樣在 CPU 上安裝 400GbE NIC 來緩解瓶頸。
接下來我們來說說功耗。
關於功耗
在Supermicro MegaDC ARS-211M-NR 評測中,我們詳細介紹了所使用的 AmpereOne 平臺的功耗 。最大的收穫是,與 Xeon 6700E 平臺或 AMD EPYC 9005 平臺相比,空閒功耗相當高。它不是高出 10-20W,而是高出 70W 以上,這在單插槽系統上非常明顯。
在滿負荷的情況下,使用 400W AmpereOne A192-32A,AMD EPYC Turin 9965 會消耗更多電量,但多出的電量不會超過 100W。英特爾至強 6780E 只是一個 330W TDP 的低功耗平臺。可能有兩種看待這個問題的方法。首先,AMD 和英特爾已經在很大程度上縮小了與 Ampere 的每瓦性能差距。另一方面,作爲 2022-2023 年的組成部分,AmpereOne 會遙遙領先。它的最大挑戰是它在 2024 年在雲提供商之外全面上市,因此它擁有不同的競爭對手。如果您想了解有關功耗的更多詳細信息,請查看系統評論。
主要經驗教訓:競爭
在這一點上,我認爲我們應該談論我們的關鍵經驗教訓的競爭。
一、主要經驗教訓:英特爾競爭
首先,Intel Xeon 6700E 看起來非常不錯。英特爾在性能方面具有競爭力。英特爾的 E 核心至少與 AmpereOne 核心不相上下。我們可能會給 AmpereOne 一個優勢,但與此同時,這也是目光短淺的。目前,Ampere 擁有 192 個核心,而Intel Xeon 6700E僅限於 144 個核心,這是 Ampere 的一大勝利。請記住,這些芯片是關於在每個插槽中放置儘可能多的客戶 <8 vCPU 實例。Ampere 擁有更多核心,因此它在這方面獲勝。不過,英特爾已經在很大程度上縮小了差距。
另一方面,英特爾至強 6766E 非常吸引人。這款 250W TDP 部件在雙插槽配置中的 SPEC CPU2017 int_rate 得分約爲 1320,因此每個 CPU 約爲 660,而 AmpereOne 得分爲 702,但功耗爲 400W。同樣,編譯器不同。不過,對於許多人來說,爲 150W 插槽 TDP 犧牲 6% 的性能是值得的。英特爾在縮小功率/性能差距方面做得很好。
也許最大的問題也是成本。192 核的 AmpereOne 價格不到英特爾至強 6780E 標價的一半。英特爾需要重新制定其定價和折扣策略,因爲現在看起來很奇怪。
我們知道 AmpereOne M 配備 256 個內核和 12 通道 DDR5。我們還知道英特爾將推出 288 個內核和 12 通道 DDR5 的 Sierra Forest-AP。英特爾應該會在這裡非常有競爭力,但成本更高。也許最奇怪的是,Clearwater Forest是我們期望英特爾在其雲原生處理器系列中獲得更多關注的一代。
二、主要經驗教訓:AMD 競爭
AMD 的大芯片標價較高,但AMD EPYC 9005“Turin”系列非常出色。也許這是有原因的。我們的感覺是,AmpereOne 實際上應該是 AMD EPYC 9754“Bergamo”一代的競爭對手,而不是 Turin Dense 的競爭對手。如果我們記得 Ampere 在 2023 年向 Oracle Cloud 等客戶交付了 AmpereOne,那麼這更有意義。8 通道 AmpereOne 的設計目的並非與 192 核/384 線程 Turin Dense 設計競爭。
與英特爾一樣,AMD 的 Turin 標價遠高於 AmpereOne。不過,目前很難斷言 AMD 或英特爾在這個領域沒有競爭力。這可能是因爲我們需要看到 AmpereOne M。
三、主要經驗教訓:NVIDIA 競爭
NVIDIA 是這裡的通配符。我們做了一篇名爲《2022 年最重要的服務器:技嘉 Ampere Altra Max 和 NVIDIA A100》的文章,它也擁有自己的 GTC 會議。現在,如果您想將 NVIDIA GPU 連接到 Arm CPU,它很可能是 NVIDIA Arm CPU。
有人可能會說這對 Ampere 不利。但這可能是件好事。NVIDIA 擁有目前市場上熱銷的 AI 產品,它將利用這一優勢推動人們使用 Arm。Grace 架構是 P 核 x86 CPU 的一個不錯的替代品,尤其是當這些 CPU 的核心數較低時。對於高核心數雲原生,NVIDIA 並沒有涉足該領域,即使它擁有 144 核 Grace 超級芯片。
我們沒有看到 AmpereOne 在高端 HGX B100/HGX B200 訓練或推理系統中的市場。與此同時,隨着 NVIDIA 向其客戶和生態系統推廣 Arm,目前 Arm 的一些最佳優化應用程序是 AmpereOne 瞄準的 Web 服務器等。
事實是,如果您想要本地 Arm,您可以購買 NVIDIA 或 Ampere,並且兩個供應商的目標都是每核性能頻譜的兩端。
四、關鍵經驗教訓:雲計算競爭
雲計算是 Ampere 的戰場。Ampere 面臨的關鍵問題是大型超大規模企業正在打造自己的芯片。像 微軟這樣的公司可以使用 Arm Neoverse CSS來構建自己的設計。AWS 正在通過 Graviton 進軍高端市場。
四年前,Ampere 憑藉 Altra / Altra Max 在超大規模計算領域取得了勝利。它可能需要轉型的地方是提供一條用於遣返的內部部署遷移路徑。具體來說,如果您有一個在 Microsoft Azure、AWS、GCP 甚至 Oracle 雲上運行的基於 Arm 的實例類型,並且您希望將工作負載遣返到內部部署或主機託管設施中,那麼您需要一個 Arm 服務器。NVIDIA 專注於銷售用於 AI 的 GPU,併爲此附帶了 CPU。將雲工作負載遣返到內部部署選項有點奇怪。大多數供應商都有用於 Grace 的 NVIDIA MGX 平臺,但這是一種性能更高的設計。如果您想遣返諸如 Web 服務器之類的東西,那麼真正的選擇是 Ampere。技嘉和 Supermicro 等公司擁有 Ampere Altra 和 AmpereOne 平臺。HPE 在 HPE ProLiant RL300 Gen11中配備了 Altra (Max) 。如果您是戴爾商店或聯想(美國)商店,那麼很難獲得非 NVIDIA Arm 服務器。
AmpereOne 實際上已經佔領了這個市場。贏得幾顆 CPU 到幾千顆 CPU 的交易要比贏得以 25,000 顆 CPU 爲增量的交易困難得多。現在的問題是 Ampere 是否會開始專注於爲人們提供通往雲端 Arm 實例的出口。
最後的話
AmpereOne 是 2024 年第四季度你能買到的最快的 CPU 嗎?不是。它也沒有試圖成爲最快的 CPU。相反,它試圖成爲一種基於 Arm 的設計,提供 192 個內核,功耗略高於 2W/內核。最大的挑戰之一是我們總是關注整個芯片的原始性能。實際上,這些芯片被部署爲雲實例,主要由 8 個或更少的 vCPU 組成。這些實例很可能以較低的 CPU 利用率運行,而更大更快的內核只會是一種浪費。
爲了獲得 1P Ampere Altra Max 結果,我們購買了基於 ASRock Rack ALTRAD8UD-1L2T的 ASRock Rack 1U 服務器。對於我們的存儲項目來說,它是較老且較便宜的一代。總體而言,現在使用 Arm CPU 很容易,但並非意味着零切換成本。是有成本的,只是比以前少了很多。NVIDIA 和雲提供商推廣 Arm CPU 只會隨着時間的推移幫助降低切換成本。
總而言之,考慮到這是我們在 2024 年評測的 2022-2023 年 CPU,AmpereOne 表現不錯。不過,也許更大的收穫是,如果你不在能夠製造芯片但想要雲原生 Arm 設計的超大規模處理器公司工作,AmpereOne 是唯一的選擇。有時,成爲其中的一員是一件很棒的事情。
https://www.servethehome.com/ampere-ampereone-a192-32x-review-a-192-arm-core-supermicro-nvidia-broadcom-kioxia-server-cpu/3/
半導體精品公衆號推薦
專注半導體領域更多原創內容
關注全球半導體產業動向與趨勢
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。
今天是《半導體行業觀察》爲您分享的第3939內容,歡迎關注。
『半導體第一垂直媒體』
實時 專業 原創 深度
公衆號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦