☰

可靈對標Sora 快手加入文生視頻戰局

本報記者李昆昆李正豪北京報道

在OpenAI文生視頻大模型Sora發佈後，國內企業爭相入局，國產文生視頻大模型邁入加速階段。近日，又一國產視頻大模型加入戰局，快手“可靈”視頻生成大模型官網正式上線。相較此前各家放出的視頻大模型以展示視頻爲主，本次亮相的可靈大模型效果對標Sora，並已在快手旗下的快影App開放邀測體驗。

快手方面接受《中國經營報》記者採訪時表示：“可靈採用類Sora的技術路線並結合多項自研創新技術，具備諸多優勢：一是能夠生成大幅度的合理運動；二是能夠模擬物理世界特性；三是具備強大的概念組合能力和想象力；四是生成的視頻分辨率高達1080p，最長可達2分鐘（幀率30fps），且支持自由的寬高比。”

可靈的技術路線

2024年，快手先後發佈1750億參數規模的通用大語言模型“快意”和文生圖大模型產品“可圖”。在視頻生成上，快手也曾與多個高校或科研機構聯手，陸續發佈可控運動的視頻生成算法Direct-a-Video、多模態生成算法Video-LaVIT、圖生視頻算法I2V-Adapter、多模態美學評價模型UNIAA等關鍵技術，爲可靈大模型積累了深厚的技術沉澱。

今年6月，快手推出了自研的視頻生成大模型“可靈”，能夠生成大幅度的合理運動，還能模擬物理世界特性，具備強大的概念組合能力和想象力，其能力對標國際領先的文生視頻大模型Sora，生成的視頻分辨率高達1080p，時長最高可達2分鐘。據悉，圖生視頻功能也將於近期開放。

記者翻閱可靈技術文檔發現，可靈大模型採用了原生的文生視頻技術路線，替代了“圖像生成+時序模塊”的組合，這也是可靈生成時間長、幀率高，能準確處理複雜運動的核心原因。快手大模型團隊認爲，一個優秀的視頻生成模型，需要考慮四大核心要素——模型設計、數據保障、計算效率和模型能力的擴展。

架構的選擇方面，可靈整體框架採用了類Sora的DiT結構，用Transformer代替了傳統擴散模型中基於卷積網絡的U-Net。Transformer的處理能力和生成能力更強大，擴展能力更強、收斂效率更好，解決了U-Net在處理複雜任務時冗餘過大、感受野和定位精度不可兼得的侷限。在此基礎之上，快手大模型團隊還對模型中的隱空間編/解碼、時序建模等模塊進行了升維。

另外在時序信息建模上，快手大模型團隊設計了一款計算高效的全注意力機制（3D Attention）作爲時空建模模塊。該方法可以更準確地建模複雜時空運動，同時還能兼顧運算成本，有效提升了模型的建模能力。

除了模型自身的能力，用戶輸入的文本提示詞（Prompt）也對最終生成的效果有着重要影響。爲此，團隊專門設計了專用的語言模型，可以對用戶輸入的提示詞進行高質量擴充及優化。

快手方面告訴記者，第一，我們可以看到視頻生成的效果是在快速提升。其實大家也能看到一些Case，比如說它的質量已經接近於視頻拍攝，也會有一些Case證明它的這個質量可能接近圖形渲染。事實上，當效果接近圖形渲染時，將給特效、遊戲、動畫行業帶來變革。當效果接近視頻拍攝時，將對泛視頻行業帶來新挑戰和新機遇。隨着這個效果提升越來越快，它會給一些相關的行業帶來新的機遇，此外視頻創作者和消費者界限會逐漸的模糊，未來如果有越來越多的視頻消費者變成創作者，對於整個視頻內容生態的繁榮是非常有幫助的。

第二，視頻生成技術將不斷演進。在技術層面，很顯然技術在快速發展，不同的模態在不斷地融合，包括理解和生成這兩大任務也在融合。此外，好的技術與好的產品之間其實存在着巨大的鴻溝，所以這裡面有非常多的工作，才能夠真正地把一個好技術推向市場。最後，技術的基礎創新也是非常重要的。

速途研究院院長丁道師告訴記者：“可靈現在也沒有獨立，它是在快影剪輯工具裡面，如果將來做得好的話，完全可以獨立。這種文生視頻的服務做好了，其實不僅僅是個文生視頻了，按照Sora的理解，它其實是一個世界模擬器，它可以做到什麼級別呢？比如現在我們在現實世界搞各種各樣的科學實驗，要花很多錢，試驗很多材料，如果有這樣一個視頻生成工具可以試驗一些材料，就能大大節約成本，提高效率，前提是這個模型一定得靠譜。”

競爭激烈

就在快手可靈上線一週後的6月13日，Luma AI發佈最新文生視頻模型Dream Machine，向所有用戶免費開放使用，其效率可以達到每120秒就能生成120幀畫面，還能快速生成5秒鐘的電影級別視覺效果的視頻片段。此外，Luma的模型超越快手可靈的地方，是還有豐富的美學風格選項。

繼Sora、Vidu、快手可靈、Luma AI輪番出場“秀”完之後，視頻生成領域的核心玩家Runway也來了。

6月17日，AI視頻生成初創公司Runway在官網宣佈，即將推出新的視頻生成模型Gen-3 Alpha，該模型可以創建具有複雜場景變化、多種電影風格和詳細藝術指導的高精細視頻。其在官網博客中秀出了數十個精彩的生成視頻，無論是光線、色彩、運動軌跡、人物細節都非常逼真，有行業人士表示一些視頻已具備Sora級別的質量。

同樣瞄準視頻大模型的還有美圖。“目前市場上的AI視頻產品傾向於提供文生視頻等能力，我們認爲只有深度理解創作者的需求，提煉有共性的視頻場景，才能打造輔助內容創作的工具。”美圖創始人吳欣鴻談到新推出的AI短片創作工具MOKI時說，“MOKI聚焦於AI短片創作，專注於動畫短片、網文短劇、故事繪本和MV等視頻場景。”

具體的工作流程是：在腳本、視覺風格、角色等前期設定完成後，AI自動生成分鏡圖並轉爲視頻素材，通過智能剪輯、AI配樂、AI音效、自動字幕等功能串聯素材並實現成片。MOKI的上述能力即基於美圖奇想大模型。

丁道師表示，現在中國在大模型這塊兒和美國還有一定的差距，我們現在正在解決有和沒有的問題，而他們是解決有和變得更好的問題，這是一個本質的差距。“當然，好在現在我們已經走出了第一步，快手現在開始嘗試了，我覺得現在很難讓他和Sora去相提並論，因爲畢竟這還不是一個級別的。產品本身也不對，對比也不是特別客觀。”

丁道師稱，他特別看好文生視頻的產品，假以時日，如果它的創作力能夠不斷升級，輔助我們把文字進行視頻化創作，比如四大名著用文字表述的呈現方式太枯燥了，如果用視頻呈現就可以更豐富、更精美，更加呈現出震撼的效果。再比如影視行業，陸川這麼一個大導演，他都已經開始用人工智能生成視頻來做一些嘗試了。還有，遊戲行業也可以做類似的嘗試。

“可靈已經有好的案例，總體上來說只是一個開始，有待進步，但是未來是值得期待的。與此同時，不僅是快手，中國做大模型做得最好的那幾家企業——百度、科大訊飛、華爲、騰訊、阿里巴巴等，以後也一定會做文生視頻相關的服務。而且要比當前國內的文生視頻做得更好。那時，我覺得文生視頻就有更大的應用空間和商業空間，可以進一步期待。”丁道師說。

（編輯：吳清審覈：李正豪校對：劉軍）

可靈對標Sora 快手加入文生視頻戰局

相關資訊