商湯升級“日日新5.0”大模型,對標GPT-4Turbo

·“日日新5.0”採用混合專家架構,超10TB tokens訓練,覆蓋大量合成數據,推理時上下文窗口達200K左右。雲、端、邊全棧大模型產品矩陣中,用於終端設備的“商湯端側大模型”可滿足各類終端用戶對大模型技術的應用需求。

“日日新5.0”和GPT-4回答趣味推理問題。

4月23日,在2024商湯技術交流日上,商湯科技董事長兼CEO徐立發佈行業首個雲、端、邊全棧大模型產品矩陣,滿足不同規模場景應用需求;升級“日日新SenseNova 5.0”大模型體系,綜合能力全面對標GPT-4 Turbo。

“商湯在尺度定律的指導下,持續探索大模型能力的KRE(知識-推理-執行)三層架構,突破大模型能力邊界。”徐立表示,“日日新SenseNova 5.0”(以下簡稱“日日新5.0”)採用混合專家架構(MoE),超10TB tokens訓練,覆蓋大量合成數據,推理時上下文窗口達200K左右。本次更新主要增強知識、數學、推理及代碼能力,全面對標GPT-4 Turbo。

在文科能力方面,“日日新5.0”的創意寫作能力、推理能力及總結能力均有提升,相同的中文知識注入後,可獲得更好的理解總結及問答,爲教育、內容產業等垂直應用場景提供輔助。在理科能力方面,“日日新5.0”數理能力、代碼能力及推理能力提高,爲金融、數據分析等場景落地提供基礎。

“日日新5.0”的多模態能力在多模態大模型權威綜合基準測試MMBench中綜合得分排名首位,在多模態榜單MathVista、AI2D、ChartQA、TextVQA、DocVQA、MMMU中取得領先成績。“日日新5.0”支持高清長圖的解析和理解、文生圖交互式生成,還可實現跨文檔知識抽取及總結問答展示。

商湯科技雲、端、邊全棧大模型產品矩陣中,用於終端設備的“商湯端側大模型”可滿足各類終端用戶對大模型技術的應用需求,端側大語言模型推理速度在中端平臺可實現18.3字/s的平均生成速度,旗艦平臺可達78.3字/s。擴散模型同樣可在端側​實現快速推理速度,端側LDM-AI擴圖技術在某主流平臺上的推理速度小於1.5秒,支持輸出1200萬像素及以上的高清圖片,支持在端上快速進行等比擴圖、自由擴圖、旋轉擴圖等圖像編輯功能。

演示擴圖功能。

大模型產品矩陣還包括面向金融、代碼、醫療、政務等領域的邊緣產品“商湯企業級大模型一體機”,支持企業級千億模型加速和知識檢索硬件加速,實現本地化部署。端雲協同解決方案可通過智能化判斷協同發揮端雲各自優勢,需要聯網搜索或處理複雜場景時分流至雲端處理,部分場景端側處理佔比超80%,從而降低推理成本。在個人出行場景,小米汽車SU7智能車艙中應用了商湯大模型技術,基於商湯端雲大模型解決方案,小米小愛同學爲車主提供智能化交互體驗。

文生視頻平臺。

“商湯在這麼多年做了非常多視頻、感知、理解的技術和內容,商湯關注如何把視頻的生成做到可控。我們打造了文生視頻平臺,強調對人物的可控性、情緒的表達、微表情等相關內容,同時我們也強調對於動作的可控性和交互性。”徐立帶來了3段完全由大模型生成的視頻。未來,輸入一段文字或一個完整描述就可以生成一段視頻,人物的服飾、髮型、場景可預先設定,保持視頻內容的連貫性和一致性,“我們會在很短時間內發佈爲大家提供服務的文生視頻平臺。”