國信證券:字節全新發布豆包AI視頻模型 AI多模態有望迎來爆發期

智通財經APP獲悉,國信證券發佈研報稱,9月24日,字節跳動旗下火山引擎在深圳舉辦AI創新巡展,一舉發布了兩款大模型, 面向企業市場開啓邀測。新的模型在語義理解能力、多個主體運動的複雜交互畫面、多鏡頭切換的內容一致性方面均有着非常大的突破, 大幅度改善過去ai視頻不夠連貫真實的問題。此前,豆包大模型公佈低於行業99%的定價,引領國內大模型開啓降價潮。火山引擎總裁譚待認爲,大模型價格已不再是阻礙創新的門檻,隨着企業大規模應用,大模型支持更大的併發流量正在成爲行業發展的關鍵因素。

豆包AI視頻模型全新發布

9月24日, 字節跳動旗下火山引擎在深圳舉辦AI創新巡展, 一舉發布了豆包視頻生成-PixelDance、 豆包視頻生成-Seaweed兩款大模型, 面向企業市場開啓邀測。

新的模型在語義理解能力、 多個主體運動的複雜交互畫面、 多鏡頭切換的內容一致性方面均有着非常大的突破, 大幅度改善過去ai視頻不夠連貫真實的問題。 火山引擎總裁譚待表示, "視頻生成有很多難關亟待突破。 豆包兩款模型會持續演進, 在解決關鍵問題上探索更多可能性, 加速拓展AI視頻的創作空間和應用落地。 "

三大全新特點 —— 可以做連續動作的人物表演

可以做連續動作的人物表演: 解決過去AI視頻人無法做複雜動作的難點

過往, AI視頻由於連貫性難點一直無法解決, 看起來更像PPT動畫。 不管是Sora、 runway等頭部廠商, 在展示中只具有鏡頭幅度大的能力, 無法展示人的複雜動作。本次豆包全新模型在AI生成人物表演視頻方便迎來大幅度提升。

多鏡頭組合視頻: 一張圖+Prompt即可生成單視頻多鏡頭

據火山引擎介紹, 豆包視頻生成模型基於DiT架構, 通過高效的DiT融合計算單元, 讓視頻在大動態與運鏡中自由切換, 擁有變焦、 環繞、 平搖、 縮放、 目標跟隨等多鏡頭語言能力。 全新設計的擴散模型訓練方法更是攻克了多鏡頭切換的一致性難題, 在鏡頭切換時可同時保持主體、 風格、 氛圍的一致性。

極致的運鏡控制: 可以實現前後景變焦、 搖攝、 目標跟隨、 升降鏡頭等各種複雜的運鏡能力

當前AI視頻在運鏡控制方面, 基本集中在攝像機+運動筆刷兩個功能上, 在大運鏡和變焦能力有限。

本次豆包PixelDance的發佈, 成功實現了各種360度圍繞主體環繞、 前後景變焦、 搖攝、 目標跟隨、 升降鏡頭等各種複雜的運鏡能力, AI視頻在運鏡控制方面迎來重大提升。

用戶使用量快速增長, 產品能力日益完善

在產品能力日益完善的同時, 豆包大模型的使用量也在極速增長。據火山引擎披露, 截至9月, 豆包語言模型的日均tokens使用量超過1.3萬億, 相比5月首次發佈時猛增十倍。多模態數據處理量也分別達到每天5000萬張圖片和85萬小時語音。

此前, 豆包大模型公佈低於行業99%的定價, 引領國內大模型開啓降價潮。 火山引擎總裁譚待認爲, 大模型價格已不再是阻礙創新的門檻, 隨着企業大規模應用, 大模型支持更大的併發流量正在成爲行業發展的關鍵因素。

據火山引擎總裁譚待介紹, 業內多家大模型目前最高僅支持300K甚至100K的TPM(每分鐘token數), 難以承載企業生產環境流量。 例如某科研機構的文獻翻譯場景, TPM峰值爲360K, 某汽車智能座艙的TPM峰值爲420K, 某AI教育公司的TPM峰值更是達到630K。 爲此, 豆包大模型默認支持800K的初始TPM, 遠超行業平均水平, 客戶還可根據需求靈活擴容

風險提示

研發不及預期;市場需求不及預期