狂攬16億大單!雲天勵飛:做最懂大模型的邊緣計算產品及服務

智東西作者 三北編輯 漠影

AI上市公司深圳雲天勵飛,最近在算力產品及服務業務板塊完成諸多大額訂單。

首先是11月5日,雲天勵飛宣佈已完成近16億元的AI大單的交付工作,爲北京德元方惠科技開發有限責任公司(簡稱“德元方惠”)提供AI訓練及推理算力服務。同時,第一批算力服務(對應合同中約60%的算力規模)的驗收相關工作已完成,上線日期爲2024年10月1日。

▲雲天勵飛最新公告部分截取

而就在不久前的9月,雲天勵飛剛中標了約1.3億元的“天府智算中心(一期)項目設備採購及監理服務採購項目”,連下兩城。

自去年以來,大模型催生了大量訓練及推理算力需求,全球各路雲計算大廠、服務器廠商、AI企業以及一些跨界玩家紛紛開始進入智算行業。

作爲一家做AI算法起家的企業,雲天勵飛拿下這些項目的背後,有什麼樣的技術和商業邏輯?這又能爲AI企業同行帶來什麼樣的啓示?

通過對話雲天勵飛副CFO兼資本中心總經理陳騰宇,本文對此進行了深入探討。

一、大模型狂飆500天,訓練及推理算力需求激增

自2023年大模型爆火以來,催生了大量訓練及推理算力需求。

大模型朝超大參數規模發展,OpenAI提出的百萬卡的智算集羣思路已經被驗證,推動智算中心如雨後春筍般涌現。根據工信部最新數據,截至2024年上半年,國內已經建設和正在建設的智算中心超過250個。2024年上半年智算中心招投標相關事件791起,同比增長高達407.1%。

提早預判到這樣的趨勢,雲天勵飛於2023年初涉足異構算力領域,這是國內AI企業最早佈局智算的步伐之一。陳騰宇向智東西談及當時的契機:短期來看,雲天勵飛在研發過程中有大量的技術沉澱可以支撐異構算力集羣的高效率運行,而其盈利能力亦較爲可觀;另一方面,訓練背後的推理需求是更大的藍海,將給雲天勵飛自研推理芯片提供廣闊的應用場景。

籌謀一年多,時間來到2024年7月,雲天勵飛與德元方惠一舉簽下16億元的AI大單,在產業裡一戰成名。

按照合約,雲天勵飛將爲後者提供智能算力調度及AI大模型開發服務平臺配套服務,算力總規模約4000PFLOPS,用於大模型訓練及推理。

項目規模之大、業務之聚焦,很多業內人士好奇,雲天勵飛能搞定這個項目嗎?

陳騰宇告訴智東西,目前這一項目已全面完成交付,並進入調試及驗收階段。同時,項目商業化也不成問題,根據雲天勵飛官方公告,這一項目未來三年預計每年爲公司新增營收約5億元,三年累計產生利潤5.39億元。

今年9月,雲天勵飛緊接着再下一城,中標了約1.3億元的天府智算中心項目。

據悉,該項目目前也已經進入交付過程,預計進一步爲雲天勵飛的業績帶來直接收益。

大項目紛紛交付,標誌着雲天勵飛異構算力業務步入正軌,成爲一條新的增長曲線。

可以看到,相比國內其他AI領域同行,雲天勵飛是在該領域跑得較快的AI企業。究其原因,首先還是因爲公司較快地看到並抓住了這波AI機遇。

但提早佈局AI算力的企業不在少數,爲什麼雲天勵飛能夠突圍?

二、爲什麼是雲天勵飛?左手算法,右手芯片

AI算力混戰局面持續已一年多。

自去年以來,儘管雲巨頭相繼推出令人眼饞的大模型訓推“全家桶”,但實際可用的算力仍是稀缺資源,服務器廠商、AI企業都在佈局智算,甚至跨界玩家都入局了,競爭好不激烈。

之所以能夠在羣雄混戰的AI算力市場站住腳,陳騰宇認爲,雲天勵飛的核心競爭力還在於技術儲備,主要體現在算法和芯片兩大方面。

1、自研大模型經驗沉澱工具,助客戶提升算力利用效率

在算法層面,雲天勵飛於2023年推出了自研千億級“雲天天書”大模型,並在大模型的研發過程中積累了一系列算力調優、提升模型訓練效率的技術平臺和相應工具。

這些經驗及工具都被雲天勵飛沉澱到產品和服務中,可幫助客戶提升模型訓練及算力利用效率,以更低成本訓練大模型。

具體到集羣管理方面,雲天勵飛智能訓練平臺及算力調度平臺,能夠按任務調度到卡,並進行任務管理、任務編排、訓練告警、大模型斷點續訓。

此外,其數據管理(DataHub)支持數據可視化、挖掘、治理等多維管理,在保證數據安全性的基礎上實現數據資產化;此外在集羣管理中的通信優化、日誌集羣、監控告警等方面也積累了多個工具鏈。

具體到軟件平臺方面,雲天勵飛推出了智能算法標註平臺,爲算法訓練提供了可靠的底層數據支持,可支持圖像和文本自動化標註,據稱相比人工標註效率提高40%左右。

除此之外,支持大模型負載均衡的部署平臺,支持在多個主流硬件平臺進行零代碼、自動化的模型發佈的模型發佈平臺,提供完整工具和資源的模型評測平臺,全面覆蓋內容審覈過濾的智能內容審覈平臺等,都可以大大提高算法訓練效率。

2、算法芯片化,自研大模型芯片提供高效推理服務

在芯片層面,雲天勵飛基於對AI算法技術特點及行業場景計算需求的理解,通過自定義指令集、處理器架構及工具鏈的協同設計,實現算法技術芯片化,構建了神經網絡處理器平臺,可以支持其算力產品及服務。

同時,雲天勵飛已具備自研的推理卡,依託創新的D2D chiplet架構,可承載大模型應用落地的大規模推理計算。據悉,從2022年開始其就開始針對大模型的Transformer架構做優化,實現流片,可見其對市場感知的前瞻性。

儘管在軟件生態上還存在差距,但與海外高性能算力相比較,一些國產推理芯片已經在某些專項上佔據優勢。比如說雲天勵飛X6000一體機,採用Mesh互聯技術,在多卡互聯時可實現存儲共享、最大化發揮帶寬優勢,從而提升大模型推理效率,針對70B模型的推理效率已達60 Tokens/s,而針對MoE架構模型,如mistral08*7B,推理效率達到260 Tokens/s。

具體到大模型推理的實務中,很多客戶更多關注的是帶寬能不能充分利用起來這個問題。雲天勵飛在卡間互聯、堆疊式設計等多方面的研發儲備,使其能夠滿足客戶的這一核心需求。

可以看到,之所以能夠拿下近20億元大單,還因爲雲天勵飛建立了雙重護城河:左手算法,右手芯片,使其在羣雄混戰的AI算力市場殺出一條血路。

三、技術立身,做最懂大模型的算力產品及服務

縱觀算力產業,動輒一個項目的金額達數億甚至數十億元,週期長、工程量大、後續運營服務需求高。

針對這樣的業務特徵,陳騰宇告訴智東西,對於大客戶來說,他們在選擇算力服務提供商時,首先還是要考慮這家公司是否靠譜。主要考察的方面除了技術儲備,還包括行業經驗、供應鏈和交付能力、運營穩定性及資金實力等一系列綜合能力。

而隨着百模大戰繼續推進,集羣運營面臨的最大挑戰還在於整體的運營能力,以及隨着市場趨勢變化,通過軟硬件協同迭代,不斷滿足客戶的新需求。

談及雲天勵飛在這些“軟實力”方面的儲備,陳騰宇談道,雲天勵飛已經搭建能力板塊較爲齊全的業務團隊,包含技術研發、運營及銷售、技術運維及交付等人員,保障業務順利開展、進行。

同時,該業務板塊已有規模化落地。根據雲天勵飛官方公告,其已落地西南、華南區域三個高性能算力集羣,運營算力規模接近5000P。在拿下兩個鉅額大單前,截至2024年5月末,公司已搭建異構計算集羣算力超800P。

此外,雲天勵飛還積累了多個行業的客戶資源。通過前期業務拓展觸達、上下游生態搭建等方式,雲天勵飛積累較多具備大模型訓練及推理需求客戶,包括AI初創公司、科研院所、互聯網企業、自動駕駛企業、運營商等客戶資源。

可以看到,正是這樣的團隊儲備、落地案例及客戶資源積累,配合“算法芯片化”戰略及技術儲備,讓雲天勵飛的異構算力業務穩步發展起來。

對於AI行業來說,雲天勵飛開闢了一條AI企業在大模型時代的新出路——不止於算法攻關,而是將算法與算力經驗結合佈局算力產品和服務,這對AI同行有一定的啓迪作用。

結語:順勢而爲,構築AI企業新價值

回顧過去一年多,AI算力在“百模大戰”狂潮之中成爲競爭焦點;站在現在看未來,行業已經歷過一波大浪淘沙,突出重圍的玩家如雲天勵飛,正真槍實劍披掛上陣,構築AI企業的新價值壁壘。

智算中心正從“建起來”走向“用起來”,也對雲天勵飛們提出了新挑戰。“我們的能力構建和商業化已經做得比較好了,下一步我們會繼續做深,綁定多個行業龍頭,儘可能地挖掘客戶需求,同時借用他們的行業經驗去迭代自己的推理算力。”陳騰宇說。