可靈對標Sora 快手加入文生視頻戰局

本報記者 李昆昆 李正豪 北京報道

在OpenAI文生視頻大模型Sora發佈後,國內企業爭相入局,國產文生視頻大模型邁入加速階段。近日,又一國產視頻大模型加入戰局,快手“可靈”視頻生成大模型官網正式上線。相較此前各家放出的視頻大模型以展示視頻爲主,本次亮相的可靈大模型效果對標Sora,並已在快手旗下的快影App開放邀測體驗。

快手方面接受《中國經營報》記者採訪時表示:“可靈採用類Sora的技術路線並結合多項自研創新技術,具備諸多優勢:一是能夠生成大幅度的合理運動;二是能夠模擬物理世界特性;三是具備強大的概念組合能力和想象力;四是生成的視頻分辨率高達1080p,最長可達2分鐘(幀率30fps),且支持自由的寬高比。”

可靈的技術路線

2024年,快手先後發佈1750億參數規模的通用大語言模型“快意”和文生圖大模型產品“可圖”。在視頻生成上,快手也曾與多個高校或科研機構聯手,陸續發佈可控運動的視頻生成算法Direct-a-Video、多模態生成算法Video-LaVIT、圖生視頻算法I2V-Adapter、多模態美學評價模型UNIAA等關鍵技術,爲可靈大模型積累了深厚的技術沉澱。

今年6月,快手推出了自研的視頻生成大模型“可靈”,能夠生成大幅度的合理運動,還能模擬物理世界特性,具備強大的概念組合能力和想象力,其能力對標國際領先的文生視頻大模型Sora,生成的視頻分辨率高達1080p,時長最高可達2分鐘。據悉,圖生視頻功能也將於近期開放。

記者翻閱可靈技術文檔發現,可靈大模型採用了原生的文生視頻技術路線,替代了“圖像生成+時序模塊”的組合,這也是可靈生成時間長、幀率高,能準確處理複雜運動的核心原因。快手大模型團隊認爲,一個優秀的視頻生成模型,需要考慮四大核心要素——模型設計、數據保障、計算效率和模型能力的擴展。

架構的選擇方面,可靈整體框架採用了類Sora的DiT結構,用Transformer代替了傳統擴散模型中基於卷積網絡的U-Net。Transformer的處理能力和生成能力更強大,擴展能力更強、收斂效率更好,解決了U-Net在處理複雜任務時冗餘過大、感受野和定位精度不可兼得的侷限。在此基礎之上,快手大模型團隊還對模型中的隱空間編/解碼、時序建模等模塊進行了升維。

另外在時序信息建模上,快手大模型團隊設計了一款計算高效的全注意力機制(3D Attention)作爲時空建模模塊。該方法可以更準確地建模複雜時空運動,同時還能兼顧運算成本,有效提升了模型的建模能力。

除了模型自身的能力,用戶輸入的文本提示詞(Prompt)也對最終生成的效果有着重要影響。爲此,團隊專門設計了專用的語言模型,可以對用戶輸入的提示詞進行高質量擴充及優化。

快手方面告訴記者,第一,我們可以看到視頻生成的效果是在快速提升。其實大家也能看到一些Case,比如說它的質量已經接近於視頻拍攝,也會有一些Case證明它的這個質量可能接近圖形渲染。事實上,當效果接近圖形渲染時,將給特效、遊戲、動畫行業帶來變革。當效果接近視頻拍攝時,將對泛視頻行業帶來新挑戰和新機遇。隨着這個效果提升越來越快,它會給一些相關的行業帶來新的機遇,此外視頻創作者和消費者界限會逐漸的模糊,未來如果有越來越多的視頻消費者變成創作者,對於整個視頻內容生態的繁榮是非常有幫助的。

第二,視頻生成技術將不斷演進。在技術層面,很顯然技術在快速發展,不同的模態在不斷地融合,包括理解和生成這兩大任務也在融合。此外,好的技術與好的產品之間其實存在着巨大的鴻溝,所以這裡面有非常多的工作,才能夠真正地把一個好技術推向市場。最後,技術的基礎創新也是非常重要的。

速途研究院院長丁道師告訴記者:“可靈現在也沒有獨立,它是在快影剪輯工具裡面,如果將來做得好的話,完全可以獨立。這種文生視頻的服務做好了,其實不僅僅是個文生視頻了,按照Sora的理解,它其實是一個世界模擬器,它可以做到什麼級別呢?比如現在我們在現實世界搞各種各樣的科學實驗,要花很多錢,試驗很多材料,如果有這樣一個視頻生成工具可以試驗一些材料,就能大大節約成本,提高效率,前提是這個模型一定得靠譜。”

競爭激烈

就在快手可靈上線一週後的6月13日,Luma AI發佈最新文生視頻模型Dream Machine,向所有用戶免費開放使用,其效率可以達到每120秒就能生成120幀畫面,還能快速生成5秒鐘的電影級別視覺效果的視頻片段。此外,Luma的模型超越快手可靈的地方,是還有豐富的美學風格選項。

繼Sora、Vidu、快手可靈、Luma AI輪番出場“秀”完之後,視頻生成領域的核心玩家Runway也來了。

6月17日,AI視頻生成初創公司Runway在官網宣佈,即將推出新的視頻生成模型Gen-3 Alpha,該模型可以創建具有複雜場景變化、多種電影風格和詳細藝術指導的高精細視頻。其在官網博客中秀出了數十個精彩的生成視頻,無論是光線、色彩、運動軌跡、人物細節都非常逼真,有行業人士表示一些視頻已具備Sora級別的質量。

同樣瞄準視頻大模型的還有美圖。“目前市場上的AI視頻產品傾向於提供文生視頻等能力,我們認爲只有深度理解創作者的需求,提煉有共性的視頻場景,才能打造輔助內容創作的工具。”美圖創始人吳欣鴻談到新推出的AI短片創作工具MOKI時說,“MOKI聚焦於AI短片創作,專注於動畫短片、網文短劇、故事繪本和MV等視頻場景。”

具體的工作流程是:在腳本、視覺風格、角色等前期設定完成後,AI自動生成分鏡圖並轉爲視頻素材,通過智能剪輯、AI配樂、AI音效、自動字幕等功能串聯素材並實現成片。MOKI的上述能力即基於美圖奇想大模型。

丁道師表示,現在中國在大模型這塊兒和美國還有一定的差距,我們現在正在解決有和沒有的問題,而他們是解決有和變得更好的問題,這是一個本質的差距。“當然,好在現在我們已經走出了第一步,快手現在開始嘗試了,我覺得現在很難讓他和Sora去相提並論,因爲畢竟這還不是一個級別的。產品本身也不對,對比也不是特別客觀。”

丁道師稱,他特別看好文生視頻的產品,假以時日,如果它的創作力能夠不斷升級,輔助我們把文字進行視頻化創作,比如四大名著用文字表述的呈現方式太枯燥了,如果用視頻呈現就可以更豐富、更精美,更加呈現出震撼的效果。再比如影視行業,陸川這麼一個大導演,他都已經開始用人工智能生成視頻來做一些嘗試了。還有,遊戲行業也可以做類似的嘗試。

“可靈已經有好的案例,總體上來說只是一個開始,有待進步,但是未來是值得期待的。與此同時,不僅是快手,中國做大模型做得最好的那幾家企業——百度、科大訊飛、華爲、騰訊、阿里巴巴等,以後也一定會做文生視頻相關的服務。而且要比當前國內的文生視頻做得更好。那時,我覺得文生視頻就有更大的應用空間和商業空間,可以進一步期待。”丁道師說。

(編輯:吳清 審覈:李正豪 校對:劉軍)