☰

OpenAI發佈首個視頻生成模型，可生成60秒一鏡到底視頻

北京時間，2月16日凌晨，OpenAI發佈了首個文生視頻模型Sora。

Sora可以直接輸出長達60秒的視頻，並且包含高度細緻的背景、複雜的多角度鏡頭，以及富有情感的多個角色。

據介紹，Sora的工作原理是一個擴散模型，它從類似於靜態噪聲的視頻開始，通過多個步驟逐漸去除噪聲，視頻也從最初的隨機像素轉化爲清晰的圖像場景。Sora使用了Transformer架構，有極強的擴展性。

對於Sora模型當前存在弱點，OpenAI也毫不避諱，稱它可能難以準確模擬複雜場景的物理原理，並且可能無法理解因果關係。

例如"五隻灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐"，狼的數量會變化，一些憑空出現或消失。

該模型還可能混淆提示的空間細節，例如混淆左右，並且可能難以精確描述隨着時間推移發生的事件，例如遵循特定的相機軌跡。

如提示詞"籃球穿過籃筐然後爆炸"中，籃球沒有正確被籃筐阻擋。

此前，Runway Gen 2、Pika等AI視頻工具，還停留在生成幾秒內的視頻，Sora模型發佈之後，有業內人士稱AI視頻要變天了，並表示"再用這些工具做幾個視頻，致敬4秒時代。"

相關資訊