行業福音?搶飯碗?點點按鈕就能畫中割的AI動畫補幀有了新進展

作者 / 紅豆餅 編輯 / Pel 排版 / 紅豆餅

“ToonCrafter達到了不錯的穩定性和可控性……尤其是能夠處理一些複雜運動和空間遮擋,參考草圖和自動上色的功能也讓人看到了其真正進入動畫中期製作流程的‘曙光’。”

一直以來,影視動畫製作產業屬於勞動密集型產業,尤其在中期生產環節需要投入較高的勞動力成本。

特別對二維動畫而言,中間畫的繪製環節是制約效率的重要問題。

講述動畫製作現場的動畫《白箱》

中間畫,日文叫做“中割”,也就是連接原畫和原畫之間的畫,需要按照角色的標準造型、規定的動作範圍、張數以及運動規律進行繪製。中間畫的繪製難度相比原畫來說更低,但如果要求動畫足夠流暢,就需要足夠多的中間畫來潤滑整個畫面。一般來說,一部24分鐘的電視動畫,大概需要3000-4000張中間畫。

如今正處在風口的生成式AI技術,已經能在一定程度上完成特定影像創作的產業需求。(見我們此前的報道:)然而,對於二維動畫補全中間畫的需求,生成式AI卻一度遭遇尷尬境地。

Runway、Pika、Sora等AI模型的產物主要都是接近實拍和CG動畫的高保真影像,運用於二維動畫補幀時,運動主體卻往往會出現明顯的模糊和形變,帶來陌生怪異的觀感。這些無法穩定控制質量的中間畫,對動畫中期流程是不可用的狀態。

輝夜大小姐想讓我告白第三季第五集ED自動補幀後的效果

而就在2024年5月底,二維動畫補幀似乎有了新方案。

香港中文大學、香港城市大學和騰訊AI LAB聯合發佈的最新生成式動畫插值模型ToonCrafter,是針對單線平塗式二維動畫中間幀自動生成的創新框架。

論文鏈接:https://arxiv.org/pdf/2405.17933

開源鏈接:https://github.com/ToonCrafter/ToonCrafter

該團隊在YouTube上傳的效果展示視頻讓網友評論:

ToonCrafter的表現效果究竟如何?能否真正高效穩定地繪製中間畫?還有哪些侷限?讓二維動畫人“苦不堪言”的人力中割時代要結束了嗎?本文將對這一模型的技術路線、生成效果做一定的概覽。

01

是什麼——生成式AI如何成爲中割動畫師

補幀這項技術也叫插幀、幀插值,是指原始視頻的兩個相鄰幀之間合成多個幀。以前的AI補幀往往指的是基於卷積神經網絡(Convolutional Neural Networks,CNN)、循環神經網絡(Recurrent Neural Network, RNN)等深度學習模型的視頻插幀方法。簡而言之,即通過學習視頻中的時空特徵等內容生成逼真的插值幀。

生成式AI的發展爲補幀技術帶來了新的可能性。擴散模型的出現使得人們可以通過大規模的數據集訓練文本到視頻(T2V,Text-to-Video)模型,此前OpenAI一經發布便火爆全球的Sora便是此類模型的代表。

隨後又出現了利用擴散模型爲指定圖像生成動態的模型,其主要原理是在T2V擴散模型的基礎上,將靜態圖像和文字提示詞等內容融入生成過程中,爲開放域圖像添加動畫效果,並在過程中嘗試保持其圖像的原始外觀。

香港中文大學、騰訊AI LAB和北京大學團隊聯合研發的DynamiCrafter模型就是一個例子,它也是ToonCrafter的前身。

被媒體稱爲“劍指Sora”的它能夠處理幾乎所有類型的圖像,只要給定一幅靜止圖像和相關的文字指令,就可以生成一個逼真的動態視頻,從樣例來看,視頻繼承了圖像的大部分視覺內容,並展示了隱含的和自然的動態。

DynamiCrafter生成效果圖

論文鏈接: https://arxiv.org/pdf/2310.12190.pdf

項目地址: https://doubiiu.github.io/projects/DynamiCrafter

試用鏈接:https://huggingface.co/spaces/Doubiiu/DynamiCrafter

雖然生成的效果不錯,但這類T2V模型仍然無法很好地直接運用於二維動畫,原因在於:

首先,以上模型主要運用於真人影像等高保真影像,和動畫特別是單線平塗的商業二維動畫內容本質上有區別。

ToonCrafter團隊認爲,動畫影像相比實拍最大的特殊性在於幀與幀之間的間離(frame “sparsity”)和紋理的豐富性(texture richness)。由於每一幀獨立繪製,動畫幀彼此之間的關係更“稀疏”,並有更多無紋理大色塊,這讓其所需要的數據集和模型生成路徑也有所不同。在使用前述模型生成動畫時,可能會意外得到真人內容。

生成內容多少有點恐怖谷。

其次,模型生成過程中的高度壓縮會導致細節丟失,這在高對比度、強調輪廓、沒有動態模糊的動畫裡更致命。

最後,生成結果較爲隨機,可控性差。通過單張圖像與較爲抽象的文字描述組合生成的內容是一種隨機的藝術,其應用過程類似“打一顆子彈畫一個靶”,但在本就有靶存在時卻難以命中。

ToonCrafter在DynamiCrafter模型的基礎上進行了改進,在生成技術的框架內,基於此前對真人視頻進行自動補幀的插值模型向動畫生成方向進行一定的調整,試圖通過矯正學習解決目前存在的種種問題。

ToonCrafter主要由三種功能技術組成:動畫校正學習、解碼中的細節注入和傳播以及基於草圖的可控生成。

動畫校正學習是爲彌合動畫與實拍的域間差距而引入的策略,通過構建相應的動畫數據集,並且精心分配原始數據和調整數據,將現有的視頻生成先驗模型適應於動畫域。這樣既保留了真人視頻的生成基礎,又克服了域間差距的問題。

此外,ToonCrafter設計了一種基於雙參考的3D解碼器(dualreference-based 3D decoder),用於補償由於高度壓縮的潛在空間帶來的細節丟失問題。該解碼器利用跨注意力機制在淺層解碼層中注入輸入圖像的細節信息,並在深層解碼層中採用殘差學習,確保插值結果中的細節得以保留。

ToonCrafter還設計了一個靈活的草圖編碼器,使用戶可以通過輸入稀疏的草圖引導對生成的結果進行交互式控制。該編碼器獨立於幀,可以處理具有稀疏或密集運動結構的插值任務。簡單來說,就是可以上傳自己的線稿視頻,讓AI參考運動規律生成中間畫。

02

怎麼樣——ToonCrafter的生成效果

首先直觀地從官網展示的所有效果來看,ToonCrafter在單線平塗的二維動畫中,相比於此前一些其他的模型,生成畫面效果整體更加穩定,生成的運動較爲自然。

ToonCrafter模型的生成方式有多種,同時也可以應用到多種領域。

在二維動畫補幀方面,只要輸入兩張靜態圖片作爲起始幀和結束幀,就可以得到相應的生成視頻。這兩張圖片可以是簡單的素描草圖,也可以是已經上色完成的圖片。

素描動畫生成應用

彩色動畫生成應用

在上文提到輸入兩張靜態照片的基礎上,還可以通過輸入一些稀疏草圖引導生成視頻。

輸入四張輔助稀疏草圖的情況

輸入三張輔助稀疏草圖的情況

輸入兩張輔助稀疏草圖的情況

輸入一張輔助稀疏草圖的情況

可以看到,在輸入數量不等的稀疏輔助草圖的情況下都能得到較好的生成效果。

同時,ToonCrafter也提供基於草圖參考進行上色的功能,無論是基於單張圖像生成視頻並且上色,還是基於雙張圖像生成視頻並且上色,都有不錯的穩定性和可適用性。

基於單張圖像生成視頻並且上色

基於雙張圖像生成視頻並且上色

在進行視頻內容生成的同時,團隊通過對比此前同領域的其他模型,對模型得到的訓練結果進行了定量、定性等角度的評估。

定量方面,團隊用弗雷歇視頻距離(Fréchet Video Distance ,FVD)以及內核視頻距離(Kernel Video Distance,KVD)這兩種指標評估生成視頻的質量。並用學習感知圖像塊相似度(Learned Perceptual Image Patch Similarity, LPIPS)測量其與真實視頻的感知相似度。

爲了評估生成的視頻幀中語義的正確性,通過計算 CLIP之間的餘弦相似度得到生成視頻和文本之間的相似度,並採用累積概率模糊檢測(cumulative probability blur detection,CPBD)來評估清晰度。

結果是ToonCrafter在多個指標上,相比於其他的插值模型贏得了更高的評估分數。

定性方面,團隊也對運動質量 (M.Q.)、時間連貫性 (T.C.) 和幀保真度 (F.F.) 偏好率進行了用戶研究,得到的反應均高於同領域的其他競爭對手。

此外,團隊還通過對比其他模型效果,對ToonCrafter在動畫校正學習效果、生成內容穩定性和基於稀疏草圖指導的可控性方面的性能進行了驗證。

在動畫校正學習方面,不同於下面第一張圖中的閃現出真人的面容,ToonCrafter生成的人臉面容是既保持了動畫風格,形體也更加穩定。

而在生成相對靜止的鏡頭時,運動主體、運動模糊和運動主體以外的其他背景的抖動明顯少於其他幾個模型。

在使用稀疏草圖生成中間畫時,通過插入中間一幀的草圖進行輔助之後,生成內容也更加可控。

03

結語——二維動畫創作的新紀元到來了嗎?

總的來說,ToonCrafter達到了不錯的穩定性和可控性,相對此前的同類模型有更好的表現,尤其是能夠處理一些複雜運動和空間遮擋,參考草圖和自動上色的功能也讓人看到了其真正進入動畫中期製作流程的“曙光”。

但同時,一些AI生成視頻的通病仍然存在。例如無法理解畫面中物體的具體性質,只是擴散推理生成了一種可能的運動方式。比如下圖中,黑色部分應該是飛機的剛體,不能隨風搖擺。

由於ToonCrafter模型建立在開源DynamiCrafter插值擴散模型的基礎上,而DynamiCrafter本身的優勢生成方向是接近現實的運動生成,因此儘管ToonCrafter在模型的基礎上做了一定的修改,但在生成的二維動畫中偶爾會呈現出一種三渲二的質感。

同樣,在實際測試中,在沒有草圖輔助的情況下,模型可能無法正確理解畫面中的大幅運動動作。實際上當物體在畫面中出現或消失時,該模型可能很難產生令人信服的過渡運動。

官方測試中多爲小幅運動,案例很美好,但經過一些網友的測試,明顯可以看到動作幅度一大,模型就容易發生混亂。如果想要獲取更好的中間幀生成結果,還是需要結合一定數量的稀疏草圖進行生成引導。

ToonCrafter的技術路徑被寄予厚望,但輕言顛覆行業或“新紀元到來”似乎還有些草率,當使用到實際的動畫生產中,其“性價比”仍然需要進一步評估,更不用說訓練數據集帶來侵犯動畫公司版權的隱患。

在我們看來,在其法律風險、穩定程度和返修成本均達到項目可接受的條件下,AI能否實際處理佔商業二維動畫最主要部分的“日常卡”,將成爲“AI中割”進入動畫產業最重要的標誌。

— 點擊圖片閱讀更多精彩內容 —