效果追上Sora,字節跳動一口氣發佈兩款視頻生成模型

9月24日,字節跳動一口氣發佈了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型,面向企業市場開啓邀測。

目前,新款豆包視頻生成模型正在即夢AI內測版小範圍測試,未來將逐步開放給所有用戶。但從發佈會現場展示的視頻生成效果來看,無論是語義理解能力,多個主體運動的複雜交互畫面,還是多鏡頭切換的內容一致性,豆包視頻生成大模型都表現出不錯的效果。

比如,其中一個視頻輸入是,“特寫⼀個⼥⼈的面部,有些⽣⽓,戴上了⼀副墨鏡,這時⼀個男⼈從畫⾯右側⾛進來抱住了她。”視頻畫面顯示,其不僅遵循了這個複雜指令,還能夠按指令的時序去完成連續的動作,兩個主體之間也能比較順暢的進行交互,而且人物表情也比較準確傳達了指令所描述的情緒。

而一位提前拿到內測資格的創作者體驗生成的視頻也顯示,其生成的視頻不僅能夠遵循複雜指令,讓不同人物完成多個動作指令的互動,人物樣貌、服裝細節甚至頭飾在不同運鏡下也保持一致,接近實拍效果。

一位多模態大模型科學家看完上述創作者使用豆包視頻生成的視頻後告訴界面新聞,如果demo效果保真的話,豆包視頻生成大模型確實是相當不錯了。從學術角度或者模型能力角度來說,其肯定達到了Sora的水平,尤其在在人物動作上非常棒。

字節跳動旗下火山引擎總裁譚待在發佈會接受界面新聞等媒體採訪時透露,豆包系列大模型並不是按照某個固定的時間計劃發佈的,有好東西就儘快推出。“我們的邏輯是推出的產品要質量可靠,有充分用戶反饋,不能是半成品。就像視頻和語言模型發佈一樣,不一定要搶第一,要推出成熟的產品。”

但在一位行業觀察人士看來,這個節點一口氣發佈兩款視頻生成模型,對字節跳動更大的意義在於“擁有”。Sora發佈之後,國內從業者都期待字節跳動能夠第一個做出來中國版Sora,最後卻是快手第一個做出來了“可靈”,而且效果還不錯,字節跳動必然承受了一些壓力。

並未過多公佈模型技術細節

據界面新聞了解,豆包視頻模型支持黑白、3D動畫、2D動畫、國畫、水彩、水粉等多種⻛格,同時支持1:1、4:3、16:9等多個比例,能夠適配電影、電視、電腦、手機等多場景。

相較於可靈等國內其他視頻生成模型,豆包視頻模型技術細節上略顯神秘,並未對外公佈太多信息。

此前,快手方面對外公佈的信息顯示,可靈背後的技術原理和Sora類似,都是把常用於視頻生成人工智能的擴散模型與Transformer架構相結合,這有助於其理解更大的視頻數據文件並更有效地生成結果。和Sora相比,可靈的一個關鍵優勢是依託於快手短視頻平臺,數億用戶上傳了大量可用於訓練可靈的視頻數據。

據譚待介紹,豆包視頻模型經過剪映、即夢AI等業務場景的持續打磨和迭代,深度優化的Transformer結構,則大幅提升了豆包視頻生成的泛化能力。同時,豆包視頻生成模型基於DiT架構,讓視頻在大動態與運鏡中自由切換,擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。

他強調,在鏡頭切換時可同時保持主體、風格、氛圍的一致性是豆包視頻生成模型的技術創新所在。

界面新聞從多位大模型從業者處瞭解到,人物動作是當下視頻生成模型共同面臨的挑戰,Sora做得也不夠好。目前,Sora看起來主要還是以運鏡和基礎動作爲主,複雜動作比較差,豆包視頻模型生成的demo已經有了明顯提升。

但這僅限於豆包視頻模型生成demo展現出的水準,幾位從業者均表示,實際的水準比較難判斷。

譚待在採訪中明確表示,這兩款視頻生成模型並不是期貨,字節跳動已經在內測API和應用,預計國慶節後會公開更多API。

已規劃視頻生成模型商用方向

界面新聞在發佈會現場發現,此次前來參加發佈會的人多到嚴控進場的程度,絕大多數參會者都是火山引擎的合作伙伴和對大模型有潛在需求的企業客戶。

譚待在發佈會現場也向這些合作伙伴和潛在客戶介紹了豆包視頻生成模型的商用方向,包括電商營銷、動畫教育、城市文旅、微劇本等企業場景,同時也能爲專業創作者和藝術家們提供創作輔助。

這和此前可靈探索的商用方向基本一致,但字節跳動更務實一些。可靈推出後,快手高調推出了由可靈深度參與制作的奇幻微短劇《山海奇鏡之劈波斬浪》,並於近日聯合李少紅、賈樟柯等9位知名導演啓動了完全依託視頻生成大模型製作電影短片“可靈AI”導演共創計劃,試圖以此來證明視頻生成大模型在影視製作領域的可用性。

從《山海奇鏡之劈波斬浪》的探索來看,可靈真正深入參與影視劇製作仍然有較大難度。和外界想象差異較大的是,這部微短劇雖然畫面均由AI生成,但整部影片並不是又AI一氣呵成,而是使用可靈大模型的文生圖和圖生視頻功能生成了很多時長5秒的分鏡頭,再由後期剪輯團隊人工剪輯而成。從成本降幅來看,其帶來的價值也不如外界預期的那麼大,整體的降幅不超過四分之一。

豆包視頻生成模型的側重點在於電商營銷等對視頻內容質量要求相對較低的場景中。在上述多模態大模型科學家看來,從目前各個視頻生成模型的能力來看,它們距離商用影視創作有多遠還有點難說,但應用在電商營銷等場景中已經完全夠用。

字節跳動並未在發佈會上公佈豆包視頻生成模型在商用場景的定價。譚待表示,視頻模型和語言模型應用場景不同,定價邏輯也不同。要考慮新、老體驗和遷移成本,而最終能否廣泛應用取決於是否比以前生產力ROI提升很多。

但他強調大模型價格已不再是阻礙創新的門檻。今年5月,豆包大模型公佈低於行業99%的定價,引領國內大模型開啓降價潮。火山引擎披露的數據顯示,截至9月,豆包語言模型的日均tokens使用量超過1.3萬億,相比5月首次發佈時猛增十倍,多模態數據處理量也分別達到每天5000萬張圖片和85萬小時語音。

在譚待看來,大模型的應用成本已經得到很好解決,行業要從卷價格走向卷性能,支持更大的併發流量正在成爲大模型行業發展的關鍵因素。