NVIDIA推出液體冷卻式GPU

(NVIDIA推出液體冷卻式GPU。圖/業者提供)

全球各地盡一切努力遏止氣候變遷所帶來的影響,Zac Smith盡己所長投身其中,協助打造兼具高效能及高能源使用效率的資料中心。他是全球服務供應商Equinix的邊緣基礎設施部門負責人,該公司管理超過240個資料中心,致力於成爲業界首間達到氣候中和的公司。

因2000年初爲紐約市的同行音樂傢伙伴建立網站而進入科技領域的茱莉亞音樂學院(The Juilliard School)畢業生Smith表示,我們擁有10,000名客戶希望我們能協助他們完成這趟旅程。他們需要更多的資料與更多的智慧導入,通常是伴隨人工智慧(AI)的使用,而且他們希望以永續發展爲目標的方式進行。

截至今年四月,Equinix已發行49億美元的綠色債券。Equinix將利用這項投資債券,以最佳化的電源使用效率(Power Usage Effectiveness,PUE)方式來減少對環境的影響,PUE是衡量資料中心直接用於處理運算作業之能源使用量的產業指標。

資料中心營運商正試着將這個比例向下調整到接近1.0 PUE的理想值。如今,Equinix設備的平均PUE爲1.48,其表現最佳的全新資料中心PUE數字則低於1.2。

Equinix在一月時成立專門提升能源使用效率的場域,在這方面又往前邁進了一步。液體冷卻(液冷)技術爲該場域的工作重點之一。

問世於大型主機時代的液冷技術,在AI時代日趨成熟。液冷技術亦稱直接晶片(direct-chip)冷卻技術,廣泛用於世界上最快的超級電腦中。

液冷技術是NVIDIA GPU加速運算技術發展的下一步,它在AI推論和高效能運算的效能表現較CPU高出20倍。

若將所有全球運行AI及高效能運算的純CPU伺服器轉換成GPU加速系統,每年將可省下高達11兆瓦特小時的能源,相當於省下一年150萬個家庭所消耗的能源。

NVIDIA發表首款採用直接晶片冷卻技術的資料中心PCIe GPU,將進一步推動永續發展。

Equinix正在對A100 80GB PCIe液冷式GPU進行資格認證,以便用於該公司的資料中心,並作爲永續冷卻和熱捕獲綜合方法的一部分。NVIDIA現正提供該GPU的樣品給客戶,預計將於今年夏季正式上市。

Smith表示,這象徵着我們的實驗室將引進首款液冷式GPU,這令我們非常期待,因爲我們的客戶一直希望能以符合永續發展的方式使用AI。

資料中心營運商的目標是淘汰冷水機的使用,冷水機每年以蒸發數百萬加侖水的方式來冷卻資料中心內的空氣。液冷系統卻可在封閉系統中循環少量液體,將重點着重於排除關鍵的熱點。Smith補充.我們將把廢棄物變成資產。

Equinix與NVIDIA在個別的測試中都發現,使用液冷技術與使用氣冷技術的資料中心相比,兩者可以執行相同的作業負載,但前者的能源消耗減少約30%。NVIDIA預估使用液冷技術資料中心的PUE值可以達到1.15,遠低於使用氣冷技術資料中心的1.6 PUE值。

使用液冷技術的資料中心也能在相同的空間處理兩倍的運算量,原因在於液冷式A100 GPU只用了一個PCIe插槽,而氣冷式A100 GPU則使用兩個PCIe插槽。

至少有超過十家系統制造商計劃於今年下半年將這些GPU導入至旗下產品線。這些製造商包括華碩(ASUS)、永擎電子(ASRock Rack)、富士康工業互聯網(Foxconn Industrial Internet)、技嘉科技(GIGABYTE)、杭州華三通信技術(H3C)、浪潮(Inspur)、英業達(Inventec)、Nettrix、雲達科技(QCT)、美超微(Supermicro)、緯穎科技(Wiwynn)與xFusion。

亞洲、歐洲和美國正在制定能源效率標準的法規,這也促使銀行和其他大型資料中心營運商開始評估液冷技術。液冷技術並不限於資料中心的使用,汽車和其他系統同樣需要用它來冷卻嵌入在密閉空間內的高效能系統。

Smith在談到液冷主流GPU的首次亮相時表示,這是旅程的起點。

我們計劃在A100 PCIe卡的基礎上,於明年推出採用基於NVIDIA Hopper架構的H100 Tensor核心GPU版本。NVIDIA計劃在可預見的未來,於高效能資料中心GPU和NVIDIA HGX平臺上支援液冷技術。

當前的液冷GPU可以提供相同的效能表現,但能源消耗卻更低,而這將有助於業界加速採用液冷GPU。NVIDIA預期這些GPU將爲用戶帶來在相同的能源消耗下,獲得更多效能的選擇,而這也是用戶一直以來想要的方案。

Smith表示,只單測量瓦特數是沒有意義的,你所獲得的碳影響效能纔是我們要推動的目標。