OpenAI 推出文本到視頻人工智能模型 Sora

OpenAI 正在推出一種新的視頻生成模型,它的名字叫 Sora。這家人工智能公司稱,Sora"可以根據文字說明創建逼真而富有想象力的場景"。文本到視頻模式允許用戶根據自己編寫的提示創建長達一分鐘的逼真視頻。

根據 OpenAI 的介紹博文,Sora 能夠創建"具有多個角色、特定運動類型以及主體和背景準確細節的複雜場景"。該公司還指出,該模型能夠理解物體"在物理世界中的存在方式",還能"準確解釋道具並生成表達生動情感的引人注目的角色"。

該模型還能根據靜態圖像生成視頻,以及在現有視頻中填充缺失的幀或擴展視頻。OpenAI 的博文中包含的 Sora 生成的演示包括淘金熱時期加利福尼亞州的空中場景、從東京火車內部拍攝的視頻等。許多演示都有人工智能的痕跡--比如在一段博物館的視頻中,地板疑似在移動。OpenAI 表示,該模型"可能難以準確模擬複雜場景的物理現象",但總體而言,演示結果令人印象深刻。

幾年前,像 Midjourney 這樣的文本到圖像生成器在模型將文字轉化爲圖像的能力方面處於領先地位。但最近,視頻技術開始飛速進步:Runway 和 Pika 等公司都展示了自己令人印象深刻的文字轉視頻模型,而Google的 Lumiere 也將成爲 OpenAI 在這一領域的主要競爭對手之一。與 Sora 類似,Lumiere 也爲用戶提供了文字轉換視頻的工具,還能讓用戶通過靜態圖像創建視頻。

Sora 目前只對"紅隊"人員開放,他們負責評估模型的潛在危害和風險。OpenAI 還向一些視覺藝術家、設計師和電影製片人提供訪問權限,以獲得反饋意見。它指出,現有模型可能無法準確模擬複雜場景的物理現象,也可能無法正確解釋某些因果關係。

本月早些時候,OpenAI 宣佈將在其文本到圖像工具 DALL-E 3 中添加水印,但指出這些水印"很容易去除"。與其他人工智能產品一樣,OpenAI 將不得不面對人工智能逼真視頻被誤認爲是真實視頻的後果。