☰

尋找中國經濟新動能·魔都“模”力 | 雲從科技加速迭代多模態大模型能力

作爲計算機視覺技術浪潮中興起的技術企業，雲從科技在人工智能領域一直保持着活躍狀態。

2019年初，雲從科技與IBM中國、阿里巴巴創新中心等頭部科技企業同期入駐上海張江人工智能島；同年年末，憑藉其AI治理經驗，雲從科技被評爲國家標準人臉識別工作組副組長單位。隨後於2022年，雲從科技成功上市，成爲登陸科創板的首家AI平臺公司。

近日，雲從科技披露了其2023年年度報告。財報顯示，雲從2023年實現營業收入6.29億元，同比增長19.33%；歸母淨利潤同比減虧25.95%。其中，同比增長超20倍的泛AI領域營業收入表現亮眼，從容大模型成爲營收增加的加速器。

站在如今的中國大模型賽道回望就會發現，整個賽道正在從擁擠走向分層。曾於2023年年初喊出大模型口號的公司，到現在仍保持活躍的也僅剩寥寥數家。

2023年5月，雲從科技發佈了其自研的從容大模型，隨後在2023年8月，從容大模型迭代至1.5版本。立足於自研基礎大模型，雲從科技選擇以百億模型爲主體走行業落地方向，試圖以此撬動市場需求。從年報數據來看，這一嘗試已初顯成效。

但外部的挑戰始終存在。2024年開年，如Sora、Gemini 1.5等產品不斷刷新模型性能的上限，近期Meta發佈開源大模型Llama 3，更是爲各家基礎大模型廠商提出了技術上的新挑戰。

雲從科技研究院產品總監孫進告訴界面新聞，從容大模型在內部已經歷了多輪迭代。1.5版本時，平衡上下文長度、模型性能與推理成本是迭代重點。據孫進介紹，從容大模型2.0版本已經完成，目前正在向3.0迭代，能力迭代的重點將會是多模態能力。

一個亮點在於，通過雲從科技自研的多模態大模型基礎架構“all in one Transformer”，從容大模型2.0版本可以以文本語言爲橋樑，實現語音與視覺兩種不同模態數據之間的統一。而3.0版本的迭代目標則是跳過文本直接處理不同模態的數據。

孫進解釋稱，以數字人爲例，當用戶以語音形式與數字人交流時，語音數據會首先被轉爲文字，隨後再由語言模型進行理解。“而現在我們的做法是，直接用語言模型處理語音特徵，沒有轉成文本的過程。”

在語音交互、視覺巡檢等場景中，這種統一不同模態數據的能力將會爲大模型產品帶來更大的提效空間，也會成爲雲從科技競標商業落地項目時的產品競爭力。

在頭部廠商都已完成基礎模型能力建設與算法備案的當下，快速實現商業落地並最終跑通數據飛輪是各家廠商謀求長期發展的必然選擇。智譜、Minimax、月之暗面等大模型公司都已經對外開放API接口，其中智譜更是於今年3月對外公開了其商業化成績。

在孫進看來，今年會成爲“大模型混戰”之後的樣板打造期，在明後年則會進入全面推廣階段。樣板打造期內，廠商需要面臨着技術邊界和客戶業務邊界之間的碰撞，也需要直面同行業的競爭。

一位做AI商業落地的從業者告訴界面新聞，2023年初，行業內“一切都值得重做一遍”的興奮情緒在逐漸回落。無論是頭部還是中腰部客戶，2023年整體上都處於觀望狀態，一直在探索大模型技術究竟應該在什麼場景落地。

智能算力緊缺的大背景下，部署成本與推理成本問題一直是阻礙大模型落地的重要因素。目前在私有化部署領域內，雲從所提供的700億參數以上模型需要在計算資源更多、耗電更大的訓練機器運行，而340億參數規模以下的模型則可以在成本相對較低的推理機器上運行。

因此，爲了取得商業合作，大模型廠商往往需要平衡模型參數規模與性能、結合客戶場景需求給出投入產出表現最佳的技術方案。

“雲從的特點就是相對來說比較全面。”孫進表示，因爲雲從科技的戰略一直是做人機協同，所以在視覺、語言、語音三方面都有佈局，技術能力更加全面；同時過去所積累的垂直行業經驗利於雲從科技去訓練行業模型，多行業落地的模式也有利於攤薄大模型研發成本。

長期來看，儘管大模型成爲重點方向，但云從科技的業務始終未脫離雲從人機協同操作系統（Cloudwalk Operating System）概念。

孫進表示，大模型與智能體的結合一直是內部的重點工作。“智能體的精髓就是多模態大模型，通過智能體與大模型的結合搭建業務中臺，以大模型定義業務。”他說，“這可能是未來很多廠商都會探索的方向。”

相關資訊