OpenAI發佈首個視頻生成模型,可生成60秒一鏡到底視頻

北京時間,2月16日凌晨,OpenAI發佈了首個文生視頻模型Sora。

Sora可以直接輸出長達60秒的視頻,並且包含高度細緻的背景、複雜的多角度鏡頭,以及富有情感的多個角色。

據介紹,Sora的工作原理是一個擴散模型,它從類似於靜態噪聲的視頻開始,通過多個步驟逐漸去除噪聲,視頻也從最初的隨機像素轉化爲清晰的圖像場景。Sora使用了Transformer架構,有極強的擴展性。

對於Sora模型當前存在弱點,OpenAI也毫不避諱,稱它可能難以準確模擬複雜場景的物理原理,並且可能無法理解因果關係。

例如"五隻灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐",狼的數量會變化,一些憑空出現或消失。

該模型還可能混淆提示的空間細節,例如混淆左右,並且可能難以精確描述隨着時間推移發生的事件,例如遵循特定的相機軌跡。

如提示詞"籃球穿過籃筐然後爆炸"中,籃球沒有正確被籃筐阻擋。

此前,Runway Gen 2、Pika等AI視頻工具,還停留在生成幾秒內的視頻,Sora模型發佈之後,有業內人士稱AI視頻要變天了,並表示"再用這些工具做幾個視頻,致敬4秒時代。"