☰

AI落地的算效彩票和精度盲盒難題，全局智算能解？

OpenAI訓練GPT4算力的利用率大概是35%。

這是業內普遍的水平，對於許多企業而言，提升算力利用率就像中彩票一樣難得。

AI訓練面臨的是算效彩票，AI推理落地面臨着精度盲盒問題。

AI想要在垂直場景落地，模型的精度要達到95%以上，但因爲各種因素的影響，實際落地時的精度就像是開盲盒一樣。

“大模型發展落地過程中，面臨的萬卡時代的算效彩票，深入行業的精度盲盒，以及高效調用的服務瓶頸，愈發需要系統性AI計算方案提供全方位、全週期支持。”寧暢總裁秦曉寧在2024年度戰略發佈會上宣佈了全局智算的戰略及新品。

寧暢總裁秦曉寧

秦曉寧介紹，寧暢的全局智算具備六大全特性，涵蓋軟硬件全體系及全液冷產品，提供從諮詢到運維的全流程服務，滿足全行業用戶大模型開發、適配、部署的全場景需求，並按用戶發展階段，定製專業且性價比高的AI計算方案。

如今的全局智算戰略，離不開寧暢成立之初義無反顧地研發當時不火的AI服務器。

從買更多服務器的百模大戰，到需要軟硬一體方案的商業化落地

去年最瘋狂的時候，國內每隔一天就會有一個AI大模型出現。

在這個百模大戰的時期，大模型公司的第一要務是購買更多更快更強的算力，也就是買更多GPU服務器。

當服務器集羣數量達到萬卡甚至十萬卡，算力的淨增長和服務器數量的增加不再是線性關係，需要從軟件、算法以及整體的優化解決低算力利用率的問題。

“2024年，大模型從參數的競賽走向了商業化、產業化的落地階段。”秦曉寧說，“這個階段不僅要提供算力硬件，大需要在算力、算法、數據三個維度來提供更需要更強的支撐。”

大模型的落地需要考慮的因素更加複雜，包括安全性、部署速度，穩定性等。

安全性關乎所有AI落地的場景，因爲數據涉及到內部信息、客戶數據等，這些數據高度敏感，需要考慮數據的安全合規性，只有做好高質量數據的治理、清洗、標註等一些列工作，才能讓大模型在具體場景中落地時不是開盲盒。

保證安全的前提下，部署時間也非常關鍵。調查數據顯示，超過64%的企業部署AI應用的時間週期是90天甚至更長。想要加速AI的落地，需要解決訓練和推理之間團硬件數據無縫實時對接的問題，還需解決部署階段的冗餘等問題。

實際應用的階段，穩定性非常關鍵，這要求有一個穩定的運行環境，同時對健康能耗狀態全面的監管。

顯然，應對大模型對算力的需求既不是簡單的硬件堆疊，也不是單純的硬件能力就能解決，需要的是軟硬件的全棧能力。

所以寧暢推出全局智算戰略。

“原來我們更多的精力是放在基礎硬件架構上，是在某一個點上加深專業度，現在我們下定決心，要把所有東西整合在一起，這對寧暢的要求更高。”秦曉寧說，“但是我們可能給客戶、最終行業帶來的改變更大。”

全局智計算如何提升AI的算效和精度？

寧暢最新推出的全局智算戰略，包含了六個層面。

最底層的硬件資源層，有通用的服務器、GPU、整機櫃、存儲、網絡多種形態的產品。

“硬件層上面的集羣設計層，不是將海量硬件簡單連接堆疊就能服務客戶的場景。寧暢會分析整個業務運行的特徵和系統的量化需求，提供從微架構、網絡、存儲、AI模型特徵等一系列的方案化的設計。”秦曉寧介紹。

再上一層是算子優化層，寧暢提供了AI算子自由化能力，目的是爲了減少模型執行時間，降低資源消耗。

算子優化層之上是AI中臺層，全面支持NVIDIA AI Enterprise（NVAIE），也有寧暢自己的中臺NAIOM，可以提供基於AI算力系統深度整合的工作棧。

在AI中臺層之上就是業務層和場景層。

寧暢CTO趙雷介紹，“我們的全局智算，包含的是硬實力（硬件）、軟動力（軟件）、服務力（服務）三部分，剩下的三部分是通過這三個能力實現。”

硬件一直以來都是寧暢擅長並且專業的部分，也是全局智算的硬實力，具體體現在可實現多種交付形態靈活組合。

其中，寧暢B8000液冷整機櫃服務器作爲AI算力棧最具亮點的交付形態，採用電、液、網三路全盲插設計，部署週期相較傳統方式提升30倍。

在全局智算的軟件層面，基於系統工程及算法模型，以AI算子全棧優化能力，爲AI業務提供並行加速、性能分析、模型開發優化等服務支持，構建出從算力資源定製，到模型適配優化，再到高效部署落地的大模型算力服務閉環，幫助用戶極速推進AI應用開發及管理。

“與以往不同，我們爲什麼要做軟件？”趙雷分享，“我們需要計算能力分析，找到算力的缺口；也需要找到網絡擁堵的地方升級網絡；還需要根據AI應用，讓機器的負載時最好的選擇。這些都需要軟件才能進一步提升AI的運算能力和產品使用率。”

雷峰網瞭解到，寧暢的AI軟件棧，是業內相對標準化的軟件棧，結合了實際的案例和思考。

國內首個AI算力棧加速AI落地

發佈全局智算戰略的同時，寧暢也推出了戰略性新品AI算力棧——NEX AI Lab（Nettrix AI Open Lab），作爲國內首個AI算力棧，已在桐鄉市成功落地，目的是解決大模型產業落地的全週期問題。

NEX AI Lab是一個128臺GPU服務器組成的算力集羣，同時使用了三種設備，集成加速計算節點、全閃存存儲節點，可爲GPT、LLaMA、Stable Diffusion等AI模型，提供多元場景應用優化支持。

NEX AI Lab已經運行了三週，證明了寧暢具備從硬件到軟件的全棧平臺服務能力。同時，NEX AI Lab可以提供免費的算力。

如果說從2020年4月份開始研發AI服務器時的忐忑，到2023年吃到AI服務器紅利，寧暢是押對了方向。

那麼寧暢在2024年生成式AI落地的重要時刻推出全局智算戰略，就是抓住了乘風而上的時代機遇。

相關資訊