李飛飛谷歌破局之作!用Transformer生成逼真視頻,下一個Pika來了?

新智元報道

編輯:Aeneas 潤

【新智元導讀】今天,李飛飛攜斯坦福聯袂谷歌,用Transformer生成了逼真視頻,效果媲美Gen-2比肩Pika。2023年儼然已成AI視頻元年!

視頻大數據時代,真的來了!

剛剛,李飛飛的斯坦福團隊同谷歌合作,推出了用於生成逼真視頻的擴散模型W.A.L.T。

這是一個在共享潛在空間中訓練圖像和視頻生成的,基於Transformer的擴散模型。

論文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

英偉達高級科學家Jim Fan轉發評論道:2022年是影像之年,2023是聲波之年,而2024,是視頻之年!

首先,研究人員使用因果編碼器在共享潛在空間中壓縮圖像和視頻。

其次,爲了提高記憶和訓練效率,研究人員使用基於窗口注意的變壓器架構來進行潛在空間中的聯合空間和時間生成建模。

研究人員的模型可以根據自然語言提示生成逼真的、時間一致的運動:

A Teddy bear skating carefully in Times Square,Slow Motion/一隻泰迪熊在時代廣場上優雅的滑冰,慢動作

Pouring chocolate sauce over vanilla ice cream in a cone, studio lighting/將巧克力醬倒在香草冰淇淋甜筒上,工作室燈光

An stronaust riding a horse/一名宇航員騎着馬

A squirrel eating a burger/一隻松鼠在吃漢堡

A panda taking a selfie/一隻正在自拍的熊貓

An elephant wearing a birthday hat walking on the beach/一頭戴着生日帽的大象在海灘上行走

Sea lion admiring nature, river, waterfull, sun, forest/海獅欣賞自然,河流,瀑布,陽光,森林

Pouring latte art into a silver cup with a golden spoon next to it/在銀盃中進行拿鐵拉花,旁邊放着金勺子

Two knights dueling with lightsabers,cinematic action shot,extremely slow motion/兩個騎士用光劍決鬥,電影動作鏡頭,極其慢動作

A swarm of bees flying around their hive/一羣蜜蜂在他們的蜂巢周圍飛翔

這個結構還可以用圖片生成視頻:

A giant dragon sitting in a snow covered landscape, breathing fire/一條巨大的龍盤踞在冰雪覆蓋的大地上,噴吐着火焰

A cute panda skateboarding in the sky, over snow covered mountains, with a dreamy and whimsical atmosphere/一隻可愛的熊貓在天空中滑滑板,越過雪山,充滿夢幻和異想天開的氣氛

An asteroid collides with Earth, massive explosive, slow motion/小行星撞上地球,大規模爆炸,慢動作

以及,生成一致性很高的3D相機運動的視頻。

Cameraturns around a cute bunny, studio lighting, 360 rotation/相機圍繞一隻可愛的兔子旋轉,工作室燈光,360度旋轉

Camera turns around utah teapot,studio lighting,360 rotation/相機圍繞茶壺旋轉,工作室燈光,360度旋轉

Camera turns around a burger on a plate,studio lighting,360 rotation/相機圍繞盤子中的漢堡旋轉,工作室燈光,360度旋轉

網友們驚歎道,這些天好像已經人手一個LLM或者圖像生成器。

今年簡直是AI發展的煽動性的一年。

兩個關鍵決策,組成三模型級聯

W.A.L.T的方法有兩個關鍵決策。

首先,研究者使用因果編碼器在統一的潛在空間內聯合壓縮圖像和視頻,從而實現跨模態的訓練和生成。

其次,爲了提高記憶和訓練效率,研究者使用了爲空間和時空聯合生成建模量身定製的窗口注意力架構。

通過這兩個關鍵決策,團隊在已建立的視頻(UCF-101 和 Kinetics-600)和圖像(ImageNet)生成基準測試上實現了SOTA,而無需使用無分類器指導。

最後,團隊還訓練了三個模型的級聯,用於文本到視頻的生成任務,包括一個基本的潛在視頻擴散模型和兩個視頻超分辨率擴散模型,以每秒8幀的速度,生成512 x 896分辨率的視頻。

W.A.L.T的關鍵,是將圖像和視頻編碼到一個共享的潛在空間中。

Transformer主幹通過具有兩層窗口限制注意力的塊來處理這些潛在空間——空間層捕捉圖像和視頻中的空間關係,而時空層模擬視頻中的時間動態,並通過身份注意力掩碼傳遞圖像。

而文本調節,是通過空間交叉注意完成的。

W.A.L.T解決視頻生成建模難題

Transformer是高度可擴展和可並行的神經網絡架構,是目前最當紅的構架。

這種理想的特性也讓研究界越來越青睞Transformer,而不是語言 、音頻、語音、視覺、機器人技術等不同領域的特定領域架構。

這種統一的趨勢,使研究人員能夠共享不同傳統領域的進步,這樣就造就了有利於Transformer的模型設計創新和改進的良性循環。

然而,有一個例外,就是視頻的生成建模。

擴散模型已成爲圖像和視頻生成建模的領先範例。然而,由一系列卷積層和自注意力層組成的U-Net架構一直是所有視頻擴散方法的主流。

這種偏好源於這樣一個事實:Transformer中完全注意力機制的記憶需求,與輸入序列的長度呈二次方縮放。

在處理視頻等高維信號時,這種縮放會導致成本過高。

潛在擴散模型可以通過在從自動編碼器派生的低維潛在空間中運行,來降低計算要求。

在這種情況下,一個關鍵的設計選擇,就是所使用的潛在空間的類型:空間壓縮 (每幀潛在) 與時空壓縮。

空間壓縮通常是首選,因爲它可以利用預訓練的圖像自動編碼器和LDM,它們在大型成對圖像文本數據集上進行訓練。

然而,這種選擇增加了網絡複雜性,並限制了Transformer作爲骨幹網的使用,尤其是由於內存限制而生成高分辨率視頻時。

另一方面,雖然時空壓縮可以緩解這些問題,但它排除了配對圖像文本數據集的使用,後者比視頻數據集更大、更多樣化。

因此,研究者提出了窗口注意力潛在Transformer (W.A.L.T) :一種基於Transformer的潛在視頻擴散模型 (LVDM) 方法。

該方法由兩個階段組成。

首先,自動編碼器將視頻和圖像映射到統一的低維潛在空間中。這種設計能夠在圖像和視頻數據集上聯合訓練單個生成模型,並顯著減少生成高分辨率視頻的計算負擔。

隨後,研究者提出了一種用於潛在視頻擴散建模的Transformer塊的新設計,由在非重疊、窗口限制的空間和時空注意力之間交替的自注意力層組成。

這種設計有兩個主要好處——

首先,使用局部窗口注意力,可以顯著降低計算需求。

其次,它有利於聯合訓練,其中空間層獨立處理圖像和視頻幀,而時空層致力於對視頻中的時間關係進行建模。

雖然概念上很簡單,但團隊的方法讓Transformer在公共基準上潛在視頻傳播中表現出了卓越的質量和參數效率,這是第一個經驗證據。

具體來說,在類條件視頻生成 (UCF-101) 、幀預測 (Kinetics-600) 和類條件圖像生成 (ImageNet)上, 不使用無分類指導,就取得了SOTA。

最後,爲了證明這種方法的可擴展性和效率,研究者還生成了逼真的文本到視頻生成效果。

他們訓練了由一個基本潛在視頻擴散模型和兩個視頻超分辨率擴散模型組成的級聯模型,以每秒8幀的速度生成512X896分辨率的視頻,並且在UCF-101基準測試中,取得了SOTA的zero-shot FVC分數。

學習視覺符號

視頻生成建模中的一個關鍵設計決策,就是潛在空間表徵的選擇。

理想情況下,需要一個共享且統一的壓縮視覺表徵,可用於圖像和視頻的生成建模。

統一的表徵很重要,這是因爲由於標記視頻數據(例如文本視頻對)的稀缺,聯合的圖像-視頻學習更可取。

爲了實現視頻和靜態圖像的統一表徵,第一幀始終獨立於視頻的其餘部分進行編碼。

爲了將這個設計實例化,研究者使用了MAGVIT-v2分詞器的因果3DCNN編碼器-解碼器。

通常,編碼器-解碼器由常規D卷積層組成,它們無法獨立處理第一幀。

而因果3D卷積層解決了這個問題,因爲卷積核僅對過去的 幀進行操作。

這就確保了每個幀的輸出僅受前面幀的影響,從而使模型能夠獨立標記第一幀。

實驗

視頻生成

研究人員考慮了兩個標準視頻基準,即類別條件生成的UCF-101和帶有5個條件幀的視頻預測Kinetics-600。

研究人員使用FVD 作爲主要評估指標。在這兩個數據集上,W.A.L.T 顯著優於之前的所有工作(下表1)。

與之前的視頻擴散模型相比,研究人員在模型參數更少的情況下實現了最先進的性能,並且需要50個DDIM推理步驟。

圖像生成

爲了驗證W.A.L.T在圖像領域的建模能力,研究人員訓練了一個W.A.L.T版本,用於標準的ImageNet類別條件設置。

在評估中,研究人員遵循ADM並報告在50K樣本上用50個DDIM步驟生成的FID和Inception分數。

研究人員將W.A.L.T與256 × 256分辨率的最先進圖像生成方法進行比較(下表2)。研究人員的模型在不需要專門的調度、卷積歸納偏見、改進的擴散損失和無分類器指導的情況下優於之前的工作。儘管VDM++的FID分數略有提高,但該模型的參數明顯更多(2B)。

消融實驗

在使用ViT -based模型的各種計算機視覺任務中,已經證明較小的補丁大小p可以始終提高性能。同樣,研究人員的研究結果也表明,減小補丁大小可以提高性能(下表3a)。

窗口注意力

研究人員比較了三種不同的STW窗口配置與全自注意(表3b)。研究人員發現,局部自注意力可以在速度上顯著更快(高達2倍)並且減少加速器內存的需求,同時達到有競爭力(或更好)的性能。

文生視頻

研究者在文本-圖像和文本-視頻對上,聯合訓練了文本到視頻的W.A.L.T。

使用的是來自公共互聯網和內部來源的約970M文本-圖像對,和約89M文本-視頻對的數據集。

定性評估

W.A.L.T根據自然語言提示生成的示例視頻,分辨率爲512*896,持續時間爲3.6秒,每秒8幀。

W.A.L.T模型能夠生成與文本提示一致、時間一致的逼真視頻。

研究人員在以1或2個潛在幀爲條件的幀預測任務上,聯合訓練了模型。

因此,模型可用於圖像動畫(圖像到視頻)和生成具有連貫鏡頭運動的較長視頻。

定量評價

科學地評估文本條件視頻生成系統仍然是一個重大挑戰,部分原因是缺乏標準化的訓練數據集和基準。

到目前爲止,研究人員的實驗和分析主要集中在標準學術基準上,這些基準使用相同的訓練數據來確保受控和公平的比較。

儘管如此,爲了與之前的文本到視頻工作進行比較,研究人員還在表 5 中的零樣本評估協議中報告了 UCF-101 數據集的結果。

研究人員框架的主要優勢是它能夠同時在圖像和視頻數據集上進行訓練。

在上表5中,研究人員消除了這種聯合訓練方法的影響。

具體來說,研究人員使用第5.2 節中指定的默認設置訓練了兩個版本的W.A.L.T-L (每個版本有 419M 參數)模型。

研究人員發現聯合培訓可以使這兩個指標都有顯著改善。

參考資料:

https://walt-video-diffusion.github.io/