效果驚豔!OpenAI“奇襲”好萊塢 人類進入AI生成大片時代【視頻集合】

出品|本站科技《態度》欄目

作者|丁廣勝

人們驚呼,好萊塢即將發生核爆!

北京時間今日凌晨,OpenAI發佈文本到視頻生成模型Sora,它是一個人工智能模型,可以從文本指令中創建逼真和富有想象力的視頻場景。

“我們正在教人工智能理解和模擬運動中的物理世界,目標是訓練模型,幫助人們解決需要現實世界互動的問題。”OpenAI表示。

據介紹,給定一段簡短或詳細的描述或一張靜態圖片,Sora 就能生成類似電影的1080P場景,其中包含多個角色、不同類型的動作和背景細節。

當然,OpenAI也承認Sora還有不少“弱點”,接下來,我們一睹Sora的效果:

tokyo-walk(來源:本站科技報道)

輸入提示:一位時尚的女士走在充滿溫暖發光的霓虹燈和動畫城市標牌的東京街道上。她穿着一件黑色皮夾克、一件紅色長裙和黑色靴子,還帶着一個黑色錢包。她戴着太陽鏡和紅色口紅。她自信而隨意地走路。街道潮溼且有反射性,創造了五顏六色的燈光的鏡面效果。許多行人走來走去。

gold-rush(來源:本站科技報道)

輸入提示:加州在淘金熱期間的歷史鏡頭。

art-museum(來源:本站科技報道)

輸入提示:相機跟在一輛帶有黑色車頂架的白色復古SUV後面,它在陡峭的山坡上加速了被松樹包圍的陡峭的土路,灰塵從輪胎上踢出,陽光照在SUV上,當它沿着土路加速時,陽光照在場景中投射出溫暖的光芒。土路緩緩向遠處彎曲,看不到其他汽車或車輛。路兩邊的樹木都是紅杉,到處都是綠地。從後部很容易看到這輛車沿着彎道行駛,看起來就像在崎嶇的地形上行駛一樣。土路本身被陡峭的山丘和山脈所包圍,上面有晴朗的藍天和細雲。

art-museum(來源:本站科技報道)

輸入提示:參觀藝術畫廊,展出許多不同風格的美麗藝術作品。

backward-jogger(來源:本站科技報道)

輸入提示:一個人跑步的場景,35毫米鏡頭拍攝的電影畫面。(該視頻的弱點:Sora有時會產生身體上難以置信的運動。)

italian-pup(來源:本站科技報道)

輸入提示:相機直接面向意大利布拉諾的五顏六色的建築。一個可愛的dalmation透過一樓一棟建築的窗戶看。許多人沿着建築物前的運河街道步行和騎自行車。

Sora的技術路徑:

Sora是一個擴散模型,它通過從看起來像靜態噪聲的視頻開始生成視頻,並通過在許多步驟中消除噪聲來逐漸轉換它。Sora能夠一次性生成整個視頻,或擴展生成的視頻以使其更長。

通過讓模型一次預見多幀畫面,OpenAI 解決了一個具有挑戰性的問題,即確保被攝體即使暫時離開視線也能保持不變。

OpenAI表示,與 GPT 模型類似,Sora 也使用了 transformer 架構,從而實現了卓越的擴展性能。

OpenAI 將視頻和圖像表示爲稱爲 patch 的較小數據單元的集合,每個 patch 類似於 GPT 中的 token。通過統一數據表示方式,OpenAI 能夠在比以往更廣泛的視覺數據上訓練擴散 transformer,包括不同的持續時間、分辨率和寬高比。

Sora 建立在過去 DALL・E 和 GPT 模型的研究基礎之上。它採用了 DALL・E 3 中的重述技術,即爲視覺訓練數據生成高度描述性的字幕。因此,該模型能夠在生成的視頻中更忠實地遵循用戶的文字提示。除了能夠僅根據文字說明生成視頻外,該模型還能根據現有的靜態圖像生成視頻,並準確、細緻地對圖像內容進行動畫處理。該模型還能提取現有視頻,並對其進行擴展或填充缺失的幀。

OpenAI認爲,Sora是能夠理解和模擬現實世界的模型的基礎,相信這種能力將是實現AGI的一個重要里程碑。