☰

國信證券：字節全新發布豆包AI視頻模型 AI多模態有望迎來爆發期

智通財經APP獲悉，國信證券發佈研報稱，9月24日，字節跳動旗下火山引擎在深圳舉辦AI創新巡展，一舉發布了兩款大模型，面向企業市場開啓邀測。新的模型在語義理解能力、多個主體運動的複雜交互畫面、多鏡頭切換的內容一致性方面均有着非常大的突破，大幅度改善過去ai視頻不夠連貫真實的問題。此前，豆包大模型公佈低於行業99%的定價，引領國內大模型開啓降價潮。火山引擎總裁譚待認爲，大模型價格已不再是阻礙創新的門檻，隨着企業大規模應用，大模型支持更大的併發流量正在成爲行業發展的關鍵因素。

豆包AI視頻模型全新發布

9月24日，字節跳動旗下火山引擎在深圳舉辦AI創新巡展，一舉發布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型，面向企業市場開啓邀測。

新的模型在語義理解能力、多個主體運動的複雜交互畫面、多鏡頭切換的內容一致性方面均有着非常大的突破，大幅度改善過去ai視頻不夠連貫真實的問題。火山引擎總裁譚待表示， "視頻生成有很多難關亟待突破。豆包兩款模型會持續演進，在解決關鍵問題上探索更多可能性，加速拓展AI視頻的創作空間和應用落地。 "

三大全新特點 —— 可以做連續動作的人物表演

可以做連續動作的人物表演：解決過去AI視頻人無法做複雜動作的難點

過往， AI視頻由於連貫性難點一直無法解決，看起來更像PPT動畫。不管是Sora、 runway等頭部廠商，在展示中只具有鏡頭幅度大的能力，無法展示人的複雜動作。本次豆包全新模型在AI生成人物表演視頻方便迎來大幅度提升。

多鏡頭組合視頻：一張圖+Prompt即可生成單視頻多鏡頭

據火山引擎介紹，豆包視頻生成模型基於DiT架構，通過高效的DiT融合計算單元，讓視頻在大動態與運鏡中自由切換，擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。全新設計的擴散模型訓練方法更是攻克了多鏡頭切換的一致性難題，在鏡頭切換時可同時保持主體、風格、氛圍的一致性。

極致的運鏡控制：可以實現前後景變焦、搖攝、目標跟隨、升降鏡頭等各種複雜的運鏡能力

當前AI視頻在運鏡控制方面，基本集中在攝像機+運動筆刷兩個功能上，在大運鏡和變焦能力有限。

本次豆包PixelDance的發佈，成功實現了各種360度圍繞主體環繞、前後景變焦、搖攝、目標跟隨、升降鏡頭等各種複雜的運鏡能力， AI視頻在運鏡控制方面迎來重大提升。

用戶使用量快速增長，產品能力日益完善

在產品能力日益完善的同時，豆包大模型的使用量也在極速增長。據火山引擎披露，截至9月，豆包語言模型的日均tokens使用量超過1.3萬億，相比5月首次發佈時猛增十倍。多模態數據處理量也分別達到每天5000萬張圖片和85萬小時語音。

此前，豆包大模型公佈低於行業99%的定價，引領國內大模型開啓降價潮。火山引擎總裁譚待認爲，大模型價格已不再是阻礙創新的門檻，隨着企業大規模應用，大模型支持更大的併發流量正在成爲行業發展的關鍵因素。

據火山引擎總裁譚待介紹，業內多家大模型目前最高僅支持300K甚至100K的TPM(每分鐘token數)，難以承載企業生產環境流量。例如某科研機構的文獻翻譯場景， TPM峰值爲360K，某汽車智能座艙的TPM峰值爲420K，某AI教育公司的TPM峰值更是達到630K。爲此，豆包大模型默認支持800K的初始TPM，遠超行業平均水平，客戶還可根據需求靈活擴容

風險提示

研發不及預期；市場需求不及預期

國信證券：字節全新發布豆包AI視頻模型 AI多模態有望迎來爆發期

相關資訊