AI落地的算效彩票和精度盲盒難題,全局智算能解?

OpenAI訓練GPT4算力的利用率大概是35%。

這是業內普遍的水平,對於許多企業而言,提升算力利用率就像中彩票一樣難得。

AI訓練面臨的是算效彩票,AI推理落地面臨着精度盲盒問題。

AI想要在垂直場景落地,模型的精度要達到95%以上,但因爲各種因素的影響,實際落地時的精度就像是開盲盒一樣。

“大模型發展落地過程中,面臨的萬卡時代的算效彩票,深入行業的精度盲盒,以及高效調用的服務瓶頸,愈發需要系統性AI計算方案提供全方位、全週期支持。”寧暢總裁秦曉寧在2024年度戰略發佈會上宣佈了全局智算的戰略及新品。

寧暢總裁秦曉寧

秦曉寧介紹,寧暢的全局智算具備六大全特性,涵蓋軟硬件全體系及全液冷產品,提供從諮詢到運維的全流程服務,滿足全行業用戶大模型開發、適配、部署的全場景需求,並按用戶發展階段,定製專業且性價比高的AI計算方案。

如今的全局智算戰略,離不開寧暢成立之初義無反顧地研發當時不火的AI服務器。

從買更多服務器的百模大戰,到需要軟硬一體方案的商業化落地

去年最瘋狂的時候,國內每隔一天就會有一個AI大模型出現。

在這個百模大戰的時期,大模型公司的第一要務是購買更多更快更強的算力,也就是買更多GPU服務器。

當服務器集羣數量達到萬卡甚至十萬卡,算力的淨增長和服務器數量的增加不再是線性關係,需要從軟件、算法以及整體的優化解決低算力利用率的問題。

“2024年,大模型從參數的競賽走向了商業化、產業化的落地階段。”秦曉寧說,“這個階段不僅要提供算力硬件,大需要在算力、算法、數據三個維度來提供更需要更強的支撐。”

大模型的落地需要考慮的因素更加複雜,包括安全性、部署速度,穩定性等。

安全性關乎所有AI落地的場景,因爲數據涉及到內部信息、客戶數據等,這些數據高度敏感,需要考慮數據的安全合規性,只有做好高質量數據的治理、清洗、標註等一些列工作,才能讓大模型在具體場景中落地時不是開盲盒。

保證安全的前提下,部署時間也非常關鍵。調查數據顯示,超過64%的企業部署AI應用的時間週期是90天甚至更長。想要加速AI的落地,需要解決訓練和推理之間團硬件數據無縫實時對接的問題,還需解決部署階段的冗餘等問題。

實際應用的階段,穩定性非常關鍵,這要求有一個穩定的運行環境,同時對健康能耗狀態全面的監管。

顯然,應對大模型對算力的需求既不是簡單的硬件堆疊,也不是單純的硬件能力就能解決,需要的是軟硬件的全棧能力。

所以寧暢推出全局智算戰略。

“原來我們更多的精力是放在基礎硬件架構上,是在某一個點上加深專業度,現在我們下定決心,要把所有東西整合在一起,這對寧暢的要求更高。”秦曉寧說,“但是我們可能給客戶、最終行業帶來的改變更大。”

全局智計算如何提升AI的算效和精度?

寧暢最新推出的全局智算戰略,包含了六個層面。

最底層的硬件資源層,有通用的服務器、GPU、整機櫃、存儲、網絡多種形態的產品。

“硬件層上面的集羣設計層,不是將海量硬件簡單連接堆疊就能服務客戶的場景。寧暢會分析整個業務運行的特徵和系統的量化需求,提供從微架構、網絡、存儲、AI模型特徵等一系列的方案化的設計。”秦曉寧介紹。

再上一層是算子優化層,寧暢提供了AI算子自由化能力,目的是爲了減少模型執行時間,降低資源消耗。

算子優化層之上是AI中臺層,全面支持NVIDIA AI Enterprise(NVAIE),也有寧暢自己的中臺NAIOM,可以提供基於AI算力系統深度整合的工作棧。

在AI中臺層之上就是業務層和場景層。

寧暢CTO趙雷介紹,“我們的全局智算,包含的是硬實力(硬件)、軟動力(軟件)、服務力(服務)三部分,剩下的三部分是通過這三個能力實現。”

硬件一直以來都是寧暢擅長並且專業的部分,也是全局智算的硬實力,具體體現在可實現多種交付形態靈活組合。

其中,寧暢B8000液冷整機櫃服務器作爲AI算力棧最具亮點的交付形態,採用電、液、網三路全盲插設計,部署週期相較傳統方式提升30倍。

在全局智算的軟件層面,基於系統工程及算法模型,以AI算子全棧優化能力,爲AI業務提供並行加速、性能分析、模型開發優化等服務支持,構建出從算力資源定製,到模型適配優化,再到高效部署落地的大模型算力服務閉環,幫助用戶極速推進AI應用開發及管理。

“與以往不同,我們爲什麼要做軟件?”趙雷分享,“我們需要計算能力分析,找到算力的缺口;也需要找到網絡擁堵的地方升級網絡;還需要根據AI應用,讓機器的負載時最好的選擇。這些都需要軟件才能進一步提升AI的運算能力和產品使用率。”

雷峰網瞭解到,寧暢的AI軟件棧,是業內相對標準化的軟件棧,結合了實際的案例和思考。

國內首個AI算力棧加速AI落地

發佈全局智算戰略的同時,寧暢也推出了戰略性新品AI算力棧——NEX AI Lab(Nettrix AI Open Lab),作爲國內首個AI算力棧,已在桐鄉市成功落地,目的是解決大模型產業落地的全週期問題。

NEX AI Lab是一個128臺GPU服務器組成的算力集羣,同時使用了三種設備,集成加速計算節點、全閃存存儲節點,可爲GPT、LLaMA、Stable Diffusion等AI模型,提供多元場景應用優化支持。

NEX AI Lab已經運行了三週,證明了寧暢具備從硬件到軟件的全棧平臺服務能力。同時,NEX AI Lab可以提供免費的算力。

如果說從2020年4月份開始研發AI服務器時的忐忑,到2023年吃到AI服務器紅利,寧暢是押對了方向。

那麼寧暢在2024年生成式AI落地的重要時刻推出全局智算戰略,就是抓住了乘風而上的時代機遇。