又一「國產版Sora」上線!清華朱軍創業團隊,視頻生成僅需30秒

機器之心報道

作者:Sia 楊文

AI 視頻圈正「互扯頭花」。

國外的 Luma、Runway,國內的快手可靈、字節即夢、智譜清影…… 你方唱罷我登場。無一例外,它們對標的都是那個傳說中的 Sora。

其實,說起 Sora 全球挑戰者,生數科技的 Vidu 少不了。

早在三個月前,國內外視頻生成領域還一片「沉寂」之時,生數科技突然曝出自家最新視頻大模型 Vidu 的宣傳視頻,憑藉其生動逼真、不輸 Sora 的效果,驚豔了一衆網友。

就在今天,Vidu 正式上線。無需申請,只要有個郵箱,就能上手體驗。(Vidu官網鏈接:www.vidu.studio)

例如,皮卡丘和哆啦 A 夢玩「貼臉殺」:

《暮光之城》男女主秀恩愛:

它甚至還解決了 AI 不會寫字的問題:

此外,Vidu 的生成效率也賊拉猛,實現了業界最快的推理速度,僅需 30 秒就能生成一段 4 秒鏡頭。

接下來,我們就奉上最新的一手評測,看看這款「國產 Sora」的實力究竟如何。

上手實測:鏡頭語言大膽,畫面不會崩壞!

這次,Vidu 亮出了絕活。

不僅延續了今年 4 月份展示的高動態性、高逼真度、高一致性等優勢,還新增了動漫風格、文字與特效畫面生成、角色一致性等特色能力。

主打一個:別人有的功能,我要有,別人沒有的功能,我也要有。

哦莫,它竟然認字識數

現階段,Vidu 有兩大核心功能:文生視頻和圖生視頻。

提供 4s 和 8s 兩種時長選擇,分辨率最高達 1080P。風格上,提供寫實和動畫兩大選擇。

先看看圖生視頻。

讓歷史重新鮮活起來,是當下最流行的玩法。這是法國畫家伊麗莎白・路易絲・維瑞的名作《畫家與女兒像》。

我們輸入提示詞:畫家與女兒像,母女緊緊抱在一起。

生成的高清版本讓人眼前一亮,人物動作幅度很大,連眼神都有變化,但效果挺自然。

再試試達芬奇的《抱銀鼬的女子》。

提示詞:抱銀鼬的女子面露微笑。

視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650928134&idx=2&sn=b93b0d455aeabfcbc8bda1f4514b0f0f&chksm=84e43078b393b96e404dc3bc8b03772032c7219ab0356f462a9a94b70dd8adf485cb1fcb2a88&token=1210565698&lang=zh_CN#rd

長達 8 秒的視頻裡,女子和寵物動作幅度較大,特別是女子的手部撫摸動作,還有身體、面部變化,但都沒有影響畫面的自然、流暢。

大幅度、精準的動作有助於更好地表現視頻情節和人物情緒。不過,動作幅度一旦變大,畫面容易崩壞。因此,一些模型爲保證流暢性,會犧牲動幅,而 Vidu 比較好地解決了這一問題。

模擬真實物理世界的運動,還真不錯。比如,復刻類似庫布裡克《2001 太空漫遊》的情景!

視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650928134&idx=2&sn=b93b0d455aeabfcbc8bda1f4514b0f0f&chksm=84e43078b393b96e404dc3bc8b03772032c7219ab0356f462a9a94b70dd8adf485cb1fcb2a88&token=1210565698&lang=zh_CN#rd

提示詞:長鏡頭下,緩緩走向消失。

視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650928134&idx=2&sn=b93b0d455aeabfcbc8bda1f4514b0f0f&chksm=84e43078b393b96e404dc3bc8b03772032c7219ab0356f462a9a94b70dd8adf485cb1fcb2a88&token=1210565698&lang=zh_CN#rd

提示詞:長鏡頭下,漂浮着,慢慢飄向盡頭。

除了圖生視頻,還有文生視頻。

提示詞:兩朵花在黑色背景下緩慢綻放,展示出細膩的花瓣和花蕊。

提示語:這次只她一人,獨自坐在櫻花深處的鞦韆架上,穿着粉紅的春衫,輕微蕩着鞦韆,幅度很小,像坐搖椅一般,微垂着頭,有點百無聊賴的樣子,緩緩伸足一點一點踢着地上的青草。那櫻花片片飄落在她身上頭上,她也不以手去拂,漸漸積得多了,和她衣裙的顏色相融,遠遠望去彷彿她整個人都是由櫻花砌成似的。

Vidu 語義理解能力不錯,還可以理解提示中一次包含多個鏡頭的片段要求。

比如,畫面中既有海邊小屋的特寫,還有運鏡轉向海面遠眺的遠景,通過鏡頭切換,賦予畫面一種鮮明的敘事感。

提示語:在一個古色古香的海邊小屋裡,陽光沐浴着房間,鏡頭緩慢過渡到一個陽臺,俯瞰着寧靜的大海,最後鏡頭定格在漂浮着大海、帆船和倒影般的雲彩。

對於第一人稱、延時攝影等鏡頭語言,Vidu 也能準確理解和表達,用戶只需細化提示詞,即可大幅提升視頻的可控性。

視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650928134&idx=2&sn=b93b0d455aeabfcbc8bda1f4514b0f0f&chksm=84e43078b393b96e404dc3bc8b03772032c7219ab0356f462a9a94b70dd8adf485cb1fcb2a88&token=1210565698&lang=zh_CN#rd

提示詞:第一人稱視角,女友牽着我的手,一起漫步在海邊。

Vidu 是一款能夠準確理解和生成一些詞彙的視頻生成器,比如數字。

提示詞:一塊生日蛋糕,上面插着蠟燭,蠟燭是數字 “32”。

蛋糕上換成「Happy Birthday」的字樣,它也能hold住。

提示詞:一塊蛋糕,上面寫着"HAPPY BIRTHDAY"。

動漫風格嘎嘎好用

目前市面上的 AI 視頻工具大多侷限於寫實風格或源於現實的想象,而 Vidu 除了寫實風格外,還支持動漫風格。

我們選擇動畫模型,直接輸入提示詞即可輸出動漫風格視頻。

例如,提示詞:動漫風格,小女孩站在廚房裡切菜。

說實話,這畫風有宮崎駿老爺子的味道。Vidu 讀懂了提示詞,小女孩切菜動作一氣呵成,就是手指和刀具在不經意間仍有變形。

提示詞:動漫風格,一個戴着耳機的小女孩在跳舞。

Vidu 的想象力還挺豐富,自個兒把背景設置爲帶有噴泉的公園,這也讓視頻畫面不那麼單調。

當然,我們還可以上傳一張動漫參考圖片,再輸入提示詞,如此一來,圖片中的動漫人物就能動起來啦。

例如,我們上傳一張蠟筆小新的靜態圖,然後輸入提示詞:蠟筆小新大笑着舉起手裡的小花。圖片用途選擇「用作起始幀」。

我們來瞅瞅效果:

視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650928134&idx=2&sn=b93b0d455aeabfcbc8bda1f4514b0f0f&chksm=84e43078b393b96e404dc3bc8b03772032c7219ab0356f462a9a94b70dd8adf485cb1fcb2a88&token=1210565698&lang=zh_CN#rd

再上傳一張呆萌皮卡丘的圖像,輸入提示詞爲「皮卡丘開心地蹦起來」。圖片用途選擇「用作起始幀」。

繼續上效果:

上傳《海賊王》路飛的圖像,再餵給它提示詞:男孩突然哭起來。

效果如下:

視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650928134&idx=2&sn=b93b0d455aeabfcbc8bda1f4514b0f0f&chksm=84e43078b393b96e404dc3bc8b03772032c7219ab0356f462a9a94b70dd8adf485cb1fcb2a88&token=1210565698&lang=zh_CN#rd

不得不說, Vidu 的動漫效果相當驚豔,在保持風格一致性的同時,顯著提高了畫面的穩定性和流暢性,沒有出現變形、崩壞或者六指狂魔、左右腿不分等「邪門」畫面。

梗圖、表情包燥起來

在「圖生視頻」板塊中,除了支持首幀圖上傳,Vidu 這次還上新一項功能 —— 角色一致性(Charactor To Video)。

所謂角色一致性,就是上傳一個角色圖像,然後可以指定該角色在任意場景中做出任意動作。

我們就拿吳京爲例。

提示詞:在一艘宇宙飛船裡,吳京正穿着太空服,對鏡頭揮手。

提示詞:吳京穿着唐裝,站在一條古街上,向鏡頭揮手。

如果說,首幀圖上傳適合創作場景一致性的視頻,那麼,有了角色一致性功能,從科幻角色到現代劇,演員七十二變,信手拈來。

此外,有了角色一致性功能,普通用戶創作「梗圖」、「表情包」可以燥起來了!

比如讓北美「意難忘」賈斯汀・比伯和賽琳娜再續前緣:

《武林外傳》中佟湘玉和白展堂嗑着瓜子,聊着同福客棧的八卦:

還有《甄嬛傳》皇后娘娘委屈大哭:

只要腦洞夠大,什麼地鐵老人吃手機、鰲拜和韋小寶打啵、容嬤嬤喂紫薇吃雞腿,Vidu 都能整出來。

就一個字,快!

視頻生成過程中,用戶最煩啥?當然是龜速爬行的進度條。

試想,爲了一段幾秒的視頻,愣是趴在電腦前等個十分鐘,再慢性子的人也很難不破防。

目前,市面上主流 AI 視頻工具生成一段 4 秒左右的視頻片段,通常需要 1 到 5 分鐘,甚至更長。

例如,Runway 最新推出的 Gen-3 工具需要 1 分鐘來完成 5s 視頻生成,可靈需要 2-3 分鐘,而 Vidu 將這一等待時間縮短至 30 秒,速度比業內最快水平的 Gen-3 還要再快一倍。

基於完全自研的 U-ViT 架構,商用精心佈局

「Vidu」底層基於完全自研的 U-ViT 架構,該架構由團隊在 2022 年 9 月提出,早於 Sora 採用的 DiT 架構,是全球首個 Diffusion 和 Transformer 融合的架構。

在 DiT 論文發佈兩個月前,清華大學的朱軍團隊提交了一篇論文 ——《All are Worth Words: A ViT Backbone for Diffusion Models》。這篇論文提出了用 Transformer 替代基於 CNN 的 U-Net 的網絡架構 U-ViT。這是「Vidu」最重要的技術基礎。

由於不涉及中間的插幀和拼接等多步驟的處理,文本到視頻的轉換是直接且連續的,「Vidu」 的作品感官上更加一鏡到底,視頻從頭到尾連續生成,沒有插幀痕跡。除了底層架構上的創新,「Vidu」也複用了生數科技過往積累下的工程化經驗和能力。

生數科技曾稱,從圖任務的統一到融合視頻能力,「Vidu」可被視爲一款通用視覺模型,能夠支持生成更加多樣化、更長時長的視頻內容。他們也透露,「Vidu」還在加速迭代提升。面向未來,「Vidu」靈活的模型架構也將能夠兼容更廣泛的多模態能力。

生數科技成立於 2023 年 3 月,核心成員來自清華大學人工智能研究院,致力於自主研發世界領先的可控多模態通用大模型。自 2023 年成立以來,團隊已獲得螞蟻集團、啓明創投、BV 百度風投、字節系錦秋基金等多家知名產業機構的認可,完成數億元融資。據悉,生數科技是目前國內在多模態大模型賽道估值最高的創業團隊。

公司首席科學家由清華人工智能研究院副院長朱軍擔任;CEO 唐家渝本碩就讀於清華大學計算機系,是 THUNLP 組成員;CTO 鮑凡是清華大學計算機系博士生、朱軍教授的課題組成員,長期關注擴散模型領域研究,U-ViT 和 UniDiffuser 兩項工作均是由他主導完成的。

今年 1 月,生數科技旗下視覺創意設計平臺 PixWeaver 上線了短視頻生成功能,支持 4 秒高美學性的短視頻內容。2 月份 Sora 推出後,生數科技內部成立攻堅小組,加快了原本視頻方向的研發進度,不到一個月的時間,內部就實現了 8 秒的視頻生成,緊接着 4 月份就突破了 16 秒生成,生成質量與時長全方面取得突破。

如果說 4 月份的模型發佈展示了 Vidu 在視頻生成能力上的領先,這次正式發佈的產品則展示了 Vidu 在商業化方面的精心佈局。生數科技目前採取模型層和應用層兩條路走路的模式。

一方面,構建覆蓋文本、圖像、視頻、3D 模型等多模態能力的底層通用大模型,面向 B 端提供模型服務能力。

另一方面,面向圖像生成、視頻生成等場景打造垂類應用,按照訂閱等形式收費,應用方向主要是遊戲製作、影視後期等內容創作場景。

Vidu官網鏈接:www.vidu.studio