對Sora如何見招拆招?12位從業者聊 Sora

出品|本站科技《態度》欄目

採訪|丁廣勝、崔玉賢、閆妍

整理|普子胥

一位女士,在東京街頭高傲行走。神態逼真、動作流暢。

繼2023年GPT大火後,一則時長60S、卻遠超以往同類型時長的視頻,正由OpenAI發佈Sora文生視頻模型推出,再次踩踏出了業界的震撼、遲疑、興奮、甚至沉默...

sora的橫空出世,是警鐘還是機會?是發令槍,還是倒計時?爲此,本站科技深入一線,去追問十餘位中國人工智能領域的專家、企業家、影視從業者等,就sora的種種話題進行全面盤析。以下爲本站科技對AI領域十餘位專家、企業家採訪節錄:

一、Sora爲何帶來如此巨大的影響力

本站科技:文生視頻不新鮮,但當下業界還是驚歎sora能力,大家驚歎核心點是什麼?sora爲何受到如此關注?

360公司創始人、董事長兼CEO周鴻禕:我認爲真正驚歎的是,大家覺得它真實。sora做的視頻,比較符合我們對世界的認知,和這個世界的運轉規律和世界背後的一些物理定律,以及我們觀察世界得來的常識都是一致的。

中國人民大學高瓴人工智能學院教授盧志武:驚歎的核心點在於Sora長視頻生成能力,在內容連貫性和物理世界的模擬上均表現出色。

香港大學教授、徐圖智能CEO徐東:先前Pika CEO郭文景說文生視頻來到了ChatGPT2.0時代。根據Pika當時生成視頻的結果,我只敢說是初現曙光。Sora出來,雖然它還有很多不完美的地方,但是證明這個賽道進展非常快,而且離實用的距離比我們想象中要小。總體來講,我當時還是有點保守了。

Sora能生成60秒時長的視頻,但還是有人不太相信能一鍵生成60秒。例如,女子在東京街道上視頻,比較驚豔是特寫的鏡頭,但視頻中人在街道行走的部分,不一定是一次生成,也有人猜測有可能是幾段合起來的。不過,Sora的技術能夠解決當不同視角切換情況下如何保持生成內容一致性的問題,並且對人物特寫很自然,這確實比較驚豔。此外,sora對比Pika就是前進了一大步。繼2022年OpenAI發佈ChatGPT後,這次Sora發佈又是一個新的breakthrough,或者說是新的ChatGPT時刻。文生視頻通常被認爲是一個比ChatGPT更難的一個任務,因爲全世界文字是有限的,排列組合能算出來總數的,不管是多麼大的一個天文數字。從視頻空間的角度來說,如果到了一個小時,一天或更長時間的視頻,視頻空間是一個人們根本不可想象的龐大解空間,比ChatGPT這個任務的解空間大很多倍,完全不在一個數量級。

哈爾濱工業大學計算學部教授左旺孟:與之前文生視頻模型相比,Sora在生成的視頻長度、視頻質量和與物理世界的一致性方面都有顯著進步。在一定程度上,Sora可以說是向世界模型邁出了重要一步。

南京大學智能科學與技術學院副教授、博士生導師易子立:對大多數人說,他們感興趣的主要原因是效果好,相比之前產品效果上提升了一大截。一是,視頻時長從幾秒延長到了60秒,真正意義上實現了視頻生成,而非短暫的定格動畫或者動效生成。二是,生成的結果非常逼真,具有複雜的場景和豐富的細節。

我感興趣的主要原因是,技術路線上迴歸到了transformer路線,開啓了視覺和大語言模型“大統一”的時代,可能爲將來的多模態基礎模型和世界模型指明瞭技術方向。

商湯科技智能產業研究院院長田豐:從產品級來說,sora是走向AGI路上的一小步,大衆期望中的“一大步”。一是,高維變低維,複雜變簡單。OpenAI的工程化體現,文章變爲token,視頻變爲patch(含視頻幀間的語義描述與關係)。

二是,從“高頻視角”到“自由視角”。因爲訓練時視頻限制寬泛,生成視頻可選擇持續時間、分辨率、寬高比(構圖、取景),不論橫屏、豎屏,畫幅大小,總有一款適合終端設備(豎屏手機、橫屏電腦/車機屏、寬畫幅AR眼鏡等),隨着模型迭代,總有一天能生成全景視頻,當然伴隨更多的仿真細節、和仿真錯誤——影視行業,多版本電影的生成,不同鏡頭語言的敘事方法,每個“虛擬機位”都是你挑選的不同演員“主角視角”。

三是,視頻-文字補足:互聯網上不缺視頻,但缺少視頻的詳細文字描述,所以通過Dall-E 3中的視頻高質量解說文字功能,爲所有視頻重新生成了大量精細化描述。

四是,MoE架構。Sora不是一個模型在戰鬥:圖畫是單張視頻,視頻是連續的圖片。Dall-E 雖然不如Midjourney,但文生圖模型保持物體穩定性要靠Lora小模型的單獨訓練,而Sora能在不同鏡頭中保持人物、物體的外觀一致性——Sora可能會把更多用戶搶走,視頻AIGV工具對AI繪畫工具的降維覆蓋。

五是,兩幀之間皆是留白:《洛杉磯纜車》的視頻顯示,AIGV生成視頻,能以“上帝視角”製作影視短劇,可以控制視頻時間方向、流速、植入場景與物體,不僅是擴展畫面、換鏡頭視角,更會改變兩個關鍵鏡頭之間的微場景、微劇情走向,但保證“殊途同歸”,下一代導演面臨“無限選擇”的拍攝過程,“無限創意+無限剪輯”。

六是,生成智能,帶來電影工程化:開源/開放電影共享“視頻大綱”,魔法混剪,個人版創意電影,隨心所欲——紅色的車換場景/換車(下水道/森林等)視頻顯示,開源電影(基礎模型)會出現,視頻混合、融合電影等“電影魔法時代”到來——一部經典電影、創意電影,就會爲其他電影製片方提供“基礎運動軌跡”,展現更多向經典致敬的橋段。

美圖公司技術副總裁兼美圖影像研究院負責人劉洛麒:文生視頻的門檻比文生圖高很多,之前的文生視頻模型只能關注特定類型的視覺數據或是較短、固定尺寸的視頻,在數據質量、算力、多融合技術等方面都還有很多需要突破的關卡。而Sora是通用視覺數據模型,在生成質量、時長、生成方式等方面重新定義了AI視頻生成模型的標準,尤其是在60秒超長視頻生成上的重大突破。通過Spacetime Patch,Sora能夠生成逼真且還原現實世界物理規律的視頻,包括真實世界和數字世界。

可以看到Sora展示了“涌現的模擬能力”,這也是機器模擬真實世界的一個重要里程碑。 除了顯著的表現能力之外,更關鍵的還在於Sora帶來的技術和商業革命,以及引發的產業機會,包括對影視、廣告、遊戲、短視頻等生產力領域的變革。

本站科技:文生視頻模型應用公司有Runway、Pika等,先前他們已經斬獲相關客戶,sora的出現會在多大程度上影響整個生態格局?

360公司創始人、董事長兼CEO周鴻禕:Sora會帶來整個產業巨大的進步。Sora出來後,大家都覺得Sora比Pika、Runway要強很多,這很正常。Sora看起來是個文生視頻的工具,但實際上是AGI(通用人工智能)的第二個突破點,是解決人工智能對這個世界的觀察、交互、認知,以及建立常識的重要里程碑。在此基礎上,人類可以創造各個領域的超級工具。例如:在自動駕駛、生物醫學、蛋白質、基因研究,包括物理、化學、數學的學科研究上,大模型都會發揮作用。

香港大學教授、徐圖智能CEO徐東:Runway和Pika現在當然很緊張。他們是創業公司,不管從人力資源、算力資源、融資能力、用戶數量等相對OpenAi都不是一個數量級。Sora出現後,他們壓力是巨大的。反而在國內市場,可能不少人會覺得Sora會有國產版,這反而倒是一個機會。

哈爾濱工業大學計算學部教授左旺孟:Sora的出現對文生視頻的生態格局有很大的影響。不過其他公司仍有很多機會。一方面可以結合每個公司的垂直領域應用需求,例如,字節可以結合抖音短視頻需求做出自己的特色。另一方面,基於視頻生成的世界模型作爲一個概念,本來也不是OpenAI最先提出來的:Runway在去年12月份就宣佈要開發通用世界模型來解決AI視頻生成問題。在世界模型的具體實現方式,僅僅依靠基於概率統計的相關性建模能否精確學習和表達物理規律,既不是唯一的方式,也未必是正確的方式。所以,也不排除其他公司仍有重新超越的機會。

新壹科技CEO雷濤:一是技術競爭壓力加劇,市場會加速優勝劣汰。Sora問世意味着AI視頻生成技術領域的重大突破。國內過去一年來,AIGC行業經歷了百模大戰後,亟待需要集合自身優勢,更加專注垂直場景落地,滿足不同領域和場景需求,方能爲自身博得一席之地;

二是,市場份額重新分配,隨之而來的商業模式和盈利期待也會更具象:Sora的誕生,無疑會對AI視頻生成市場重新洗牌。就國內而言,要看哪些企業能結合、利用新技術,完善符合國情的產品,比如提供定製化的視頻生成服務、跨業態合作;那麼有了這樣一款或幾款爆款“產品”,行業探索新商業模式、變現盈利的路徑也會變得更明晰。

南京大學智能科學與技術學院副教授、博士生導師易子立:要看OpenAI的算力能否支撐得起文生視頻的生態,目前OpenAI的主要產品(包括GPT3.5/GPT4,dalle,whisper,TTS等)都用較嚴格的用量限制,這些都嚴重影響了生態的發展。文生視頻有可能比上述模型更加消耗算力,對於OpenAI的算力基礎設施是一個巨大的考驗。當然,OpenAI可以選擇和微軟合作,利用微軟的算力驅動自己的產品,在一定程度上能緩解算力不足的問題。

另外,就是OpenAI的工作重點是否會放在創作工具上,也是一個問號。Dalle3 爲啥沒有太多影響到MJ,並不是因爲Dalle3技術落後,是因爲Dalle3出的圖大多數看起來風格化過重,不像真實的,不符合大多數設計師的需求。但OpenAI似乎也沒有把工作中心放在如何改善Dalle3的效果,讓出圖風格更接近市場需求,因此沒怎麼影響到MJ的市場。OpenAI是一個有着更大格局的公司,我覺得它的目標是AGI,是世界模型,是一切AI的基礎模型,而不是一個簡單的圖片/視頻創作工具。

本站科技:對sora這樣的複雜AI系統,有人認爲人才第一、數據第二、算力第三,其他都是可替代的,如何理解這樣的論斷,您怎麼看OpenAI的實力和戰略目標?

中國人民大學高瓴人工智能學院教授盧志武:認同這一觀點,關鍵的模型設計和工程化技術確實是由一流人才決定的,同時數據和算力也是不可或缺的。

360公司創始人、董事長兼CEO周鴻禕:科技競爭最終比拼的是人才密度和深厚積累。和很多創業者團隊比,OpenAl這種有核心技術的公司實力是非常強勁的。OpenAI也不缺顯卡,最近Altman說準備7萬億美元做新的算力架構,說明他們對算力的需求,可能超出我們每個人的想象。

我認爲,其實Sora的很多東西都沒有公佈。Altman是個營銷大師,他知道到哪一步做什麼,能調動用戶與觀衆的關注。但真正訣竅他們是絕對不會說的。

香港大學教授、徐圖智能CEO徐東:人才肯定是第一位。我認爲,在aigc時代,不是要搞大團隊,而且是要小而精的團隊。Sora團隊成員都非常年輕。爲什麼人才要年輕化? AI現在已經從AI1.0時代變成AI2.0時代了。AI1.0時代是感知,AI2.0時代是生成人工智能。這個時代的變化要求研究人員要有很強的學習能力,AI2.0時代是需要重新洗牌的,AI2.0時代的有些技術比如Transformer可能大家都聽過,但是AI1.0時代的不少人畢竟沒真正訓練過大模型。所以,爲什麼是新的人來領領軍?因爲人家是從AI2.0時代成長起來,人家摸的時間比你長,經驗比你多。這方面,國內人才相對國外就更缺了。因此,研究上人才肯定是最重要的,而且是要懂AI2.0的人才。我2022年加入香港大學後,我們整個團隊all in 擴散模型(diffusion model),團隊積累了不少的經驗包括在視頻AI領域的經驗。當然,數據跟算力也很重要。想出思路和解決辦法,但是你沒有算力或者沒有數據支持,那只是想法而已。 至於怎麼看OpenAI。進入Generative AI時代,現在就是OpenAI and others。OpenAI不僅在語言模型上領先,在文生視頻這個領域也是遙遙領先。

哈爾濱工業大學計算學部教授左旺孟:不同於文生圖像或語言大模型,文生視頻有其自身的特殊性。文生圖像的訓練集如LAION-5B包含了58.5 億個文本-圖像對。與文生圖像相比,文生視頻更加複雜,原則上需要有更多的文本-視頻對。然而,由於現實世界中視頻的數量遠遠少於圖像,高質量視頻數量更少,並且互聯網上視頻的完整文字描述也更少。這些使得文生視頻會更依賴開發人員的算法設計和代碼實現,所以纔會說人才第一。其次,能蒐集到的數據顯然是越多越好,最後纔是一定的算力和反覆的迭代開發。

新壹科技CEO雷濤:如果把AI系統類比成一個人體的話,那麼人才相當於大腦,數據可以看作是血液循環,算力可以視爲骨骼和肌肉,確實是比較核心的部分;不過,還有很多其它要素不能被忽視【人體的其它器官】,像算法的選擇、模型的設計、系統的架構等都對AI系統性能有直接影響。

從Chatgpt和Sora這兩個產品來看,OpenAI的目標是創造出通用人工智能AGI(Artificial General Intelligence),相對於實驗室人工智能而言。如果AGI路徑照進現實,那麼資源的豐富度、人類能力邊界都將得到拓展,意味着又一次生產力革命。

二、中國的AI玩家應該如何趕超和應對

本站科技:sora橫空出世,國內大模型企業該如何見招拆招?我們與大洋彼岸的差距有多遠?

崑崙萬維董事長兼CEO方漢:Sora具有三維空間的連貫性、模擬數字世界、長期連續性和物體持久性、與世界互動的技術特點,是文生視頻領域特別大的進步和突破,領先國內同行半年左右,對影視、視頻、廣告等行業有很大的衝擊,但在理解層面沒有特別大的突破,不能誇大Sora在通用人工智能方面的進步。國內廠商和國外廠商在文生視頻的差距,不像大模型領域的差距那麼大,Sora的發佈會進一步加速國內廠商在該領域的投入。

中國人民大學高瓴人工智能學院教授盧志武:Sora也是一個通用的底座模型,與ChatGPT同等重要。國內企業需要重視多模態方向上的人才和數據積累,纔有可能追趕上Sora。與國外的差距在0.5-1年之間。

360公司創始人、董事長兼CEO周鴻禕:Sora給了中國的互聯網和人工智能行業一個響亮的提醒,承認差距並不丟人,知道差距在哪兒,我們迎頭趕上。現在國內也不用太悲觀,有些技術訣竅,我覺得很快地也都會被探索出來,剩下的需要時間。

國內比較值得關注有三點:第一,人才的高度和密度;第二,算力,做Sora和下一步更大規模的大模型對算力的要求可能又是一個積累,10萬塊顯卡是個基本起點;第三,知識的問題,網上的很多語料並不適合用來做直接的訓練,訓練大模型需要的是高純度的知識。

香港大學教授、徐圖智能CEO徐東:現在語言大模型公司也在往多模態大模型方向發展,可能也有人認爲他們能做Sora。但我覺得這事比語言模型更難,視頻生成模型的解空間比語言的解空間還是大不少的。另外先前GPT是有開源的,是基於純Transformer路線的。這一次OpenAI的技術報告基本沒有太多細節,從大的方面來講,基於diffusion框架,sora採用了transformer來取代之前算法中的UNet結構以逐步實現去除噪聲並生成視頻,即所謂的diffusion transformer技術路線。簡單來講,這個技術路線本質是diffusion路線而不是語言大模型公司所採用的純Transformer路線。其實diffusion框架有一套非常嚴格的數學理論保證,在算力和數據有限的情況下,這肯定是初創公司的首選。和Sora類似技術路線相似的論文很少,我香港大學一個同事羅平教授去年一直在採用diffusion transformer這條技術路線,先是做了一個文生圖的論文(中了ICLR 2024,模型已經開源),去年11月又投了一個文生視頻的論文到CVPR 2024。這篇投稿CVPR 2024的論文應該是我見到的所有文生視頻論文中從技術路線上來講最接近sora技術路線的工作。

另外,訓練sora所採用的數據也沒有開源,當然也沒有提供任何關於數據收集方面的細節,另外現在也沒有太多其它公開的數據集,這和語言大模型這個賽道剛開始的時候非常不一樣。所以,現在雙方的差距是明顯被拉大了。要在幾個月之內就能超過Sora,應該不是一件非常容易的事。

北京大學人工智能博士、斯坦福創業導師張有魚:在ChatGPT 3.5發佈之前,國內還是有研究產品以及積累的,GPT2的源碼是公開的,GPT3的源碼國內個別單位也有。所以綜合下來在追趕GPT過程中,國內廠商還是有底氣的,所以23年下半年,基本隔幾天就會公佈宣佈在XX地方超越了GPT4。

但這次SORA突然發佈後,除了360周鴻禕之外,基本都保持沉默,可能這一次過於突然。SORA出現當天,我就開始和6位影視、動畫、互聯網、大模型相關領域的專家在視頻號直播開始探討。在過去一週時間每晚一場討論,大概有近30位嘉賓,但於對於這個問題,總體也是諱莫如深。但是從投資和產業界來看,一些之前這方面賽道的小公司可能會迎來一個被併購的機會。有網友笑話說,現在全村人都盼着Meta趕緊殺進來,只要它一開源,國內就能在應用上跟進。

本站科技:文生圖、文生視頻等想象空間巨大,對於創業者、尤其是中國創業者,您認爲機會在哪些地方?專注什麼垂直領域成功的概率相對較大?

香港大學教授、徐圖智能CEO徐東:現在很多風投找到我,有人悲觀,表示Sora太厲害,我們差距太大。但從另外一個角度講,從國家戰略來說,很多情況下是不可能採用Sora的。另外還有很多的企業,比如有些遊戲公司未必願意採用Sora,所以一定需要一箇中國版的sora。

對國家來講,也可能存在國家安全的問題。如果有人掌握了這個工具,就有可能會產生大量的生成視頻,自動區分真實以及合成視頻現在還是一個非常困難的任務。另外這些生成視頻在價值觀和道德觀上有可能和我們主流的觀點並不一致。如果國內完全不懂OpenAI是怎麼進攻的,那我們怎麼去防?所以說國家肯定會有政府資源投入做這個事。 而從創業的角度來說,我個人是看好的,也有不少風投也是很看好的,因爲中國還是會有一箇中國版Sora出來,只是說誰能做出來而已。先前中國可能有200多個GPT模型,但是我估計國內不會有這麼多團隊來做類似Sora的模型,因爲這個賽道門檻特別高且開源資源缺乏,只有有很強技術積累的團隊纔可能來做類似Sora的模型。

新壹科技CEO雷濤:我認爲以下幾個層面潛在需求會比較集中。1.本地化內容生成:通用大模型的成熟和標杆性應用的涌現,會進一步激發能快速生成高質量、本地化的內容需求。諸如,爲特定地區或文化生成符合其背景和習慣的文本、圖像或視頻內容。2.垂直化行業應用:經過特別化訓練和底層設計的垂直大模型可滲透於各垂直行業,像醫療、教育、金融、融媒體等。新壹視頻大模型和旗下的內容輔助創作平臺,已經與金融保險、融媒體、醫療機構,有了很深入的合作溝通,甚至是實踐案例。3.個性化視頻定製: Sora的文本到視頻生成能力進一步降低了個性化視頻定製門檻。像企業宣傳片、教育培訓、微短劇,甚至個人娛樂領域,用戶都可以根據自身需求,通過文本描述進行視頻內容DIY。4.輔助創作的工具化平臺:從外來的ChatGpt、Sora,到國內用戶接觸、熟悉普及,時間和信息度都存在一定門檻,那麼提供易於用戶使用的工具化平臺,通過降低技術門檻,使普通用戶也能感受到尖端技術帶來的福利,更輕鬆便捷的進行創作,也是一種定位路徑。新壹科技旗下的一幀秒創平臺,就致力於此。5.與其他技術結合的延展邊界:通用人工智能、AIGC技術的迭代和升級,以Sora的視頻生成技術突破爲例,這讓其與其他技術如增強現實(AR)、虛擬現實(VR)等結合,能創造出更豐富多樣的內容形式,投身到影視、大銀幕製作中,更加具有想象空間。

360公司創始人、董事長兼CEO周鴻禕:創業要廣義地來看。在機會方向上,我提兩個:第一,我認爲未來會產生很多新的工具,人工智能最典型的屬性就是工具,所以工具市場會有巨大的機會。創業者如果可以接入Sora、GPT大模型API,可以利用它的能力,產生素材,創業者要做的是把你的能力和它結合起來。

第二,對很多傳統To C領域可能會有重塑一遍的機會。創業者可以走把大模型垂直化、產業化、行業化發展的路,做各種企業大模型、場景大模型。

北京大學人工智能博士,斯坦福創業導師張有魚:我們回看歷史,可以得出幾個顯而易見的結論:每一次內容創作門檻的降低,都會帶來內容更大的爆發。博客時代(千字長文)——微博時代(70字短信)——圖文時代(隨手拍照)——短視頻和直播時代。文字圖片電影電視視頻,都是爲了信息傳遞、文化傳播、娛樂消遣服務,所以也必將帶來視頻生產的大爆發。

三、Sora影響最大的人羣是誰?

本站科技:此前,GPT壓力給到了編劇,現在,sora的壓力傳導給了後期和特效?怎麼看未來相關從業者的可替代性?

360公司創始人、董事長兼CEO周鴻禕:今天Sora可能給廣告業、電影預告片、短視頻行業帶來巨大的顛覆。機器能生產一個好視頻,但視頻的主題、腳本和分鏡頭策劃、臺詞的配合,都需要人的創意,至少需要人給提示詞。我認爲,人工智能取代不了人類的想象力和創造力,還有人類的主觀意願。所以,我認爲Sora更可能成爲後期和特效等相關從業者的創作工具。

南京大學智能科學與技術學院副教授、博士生導師易子立:目前說Sora替代導演編劇還爲時尚早。Sora可以產生不錯的視頻,但能否以更低成本產生符合製作人需求的內容,還是個問號。從目前Sora的缺點來看,還沒有到大規模替代攝像和圖形學的地步。根據我之前的預測,還需要至少等全球算力水平再提升1~2個數量級,也就是大概率在4~5年之後,甚至更長時間。

美圖公司技術副總裁兼美圖影像研究院負責人劉洛麒:以史爲鑑,新技術的出現並非要取代人類的工作,每一次生產工具的升級帶來的是生產力的提升。

Sora、GPT、Mid journey等產品的本質都是生產工具。作爲AI輔助工具,更多的是賦能創作者而非替代,包括幫助普通人降低生產門檻,爲專業生產者降低生產成本,加速內容生成,提高創意實現的生產效率,幫助減少內容生產者的“工具屬性”,釋放創意發揮的空間。與此同時,AI也會創造出新的工作和新的可能性。影視和視頻產業的靈魂是情感、世界觀、文化等等的碰撞與共鳴,高度依賴創新創意、情感投入和人類敘事,這也是AI不可替代的地方。

北京電影學院動畫學院教授、影視投資人孫立:Sora一出,ADOBE、迪士尼,奈飛股價馬上下跌。視頻的生產,特別是複雜特效視頻的生產不再是資本和資源集中後的優勢項目,不再是稀缺資源。利用sora ,1個高中生設計的出的星球大戰場面可能比喬治盧卡斯製作的同類畫面更新穎,更吸引人。

本站科技:Sora的出現會衝擊哪些教育機構和培訓機構?

北京電影學院動畫學院教授、影視投資人孫立:教育的權威性受到衝擊。今後影視製作從業的專業技能需求要重新定義。靜態畫面方面已經很明顯了,中央美院2023年報考人數斷崖式下降了8000人。

本站科技:sora的弱點有哪些?它有哪些不足或者值得擔憂的地方?

中國人民大學高瓴人工智能學院教授盧志武:Sora目前的弱點只是暫時的,通過模型優化和採用更大的數據訓練肯定可以解決。

哈爾濱工業大學計算學部教授左旺孟:Sora號稱是作爲世界模擬器的視頻生成模型,但實際上仍主要是依靠基於概率統計的相關性建模來學習物理規律,目前還難以模擬所有現實中的物理過程。從長期來看,也許需要突破當前的學習範式,發展新的模型和學習方法。

北京電影學院動畫學院教授、影視投資人孫立:sora的開發,完全脫離了我們視野範圍。我在此之前沒有看到任何行業論文預判到了它的升級路徑。當然,它目前很顯然代替不了張藝謀和王家衛。它還無法和我們共情,僅僅是完成我們的指令。不過都到這一步了,誰敢給它今後的發展設限?

360公司創始人、董事長兼CEO周鴻禕:從負面來說,如果有了Sora之後,人類消耗大量的算力和能源,我們每個人每天都在瘋狂產生視頻,你根本就沒有時間來回看。它甚至都超過一個宇宙的壽命了,那誰去看呢?所以,我也覺得挺迷茫的。

還有一個問題,詐騙視頻。過去詐騙視頻叫Deepfake深度僞造,過了幾年他們換了一個高大上的名字叫AIGC。今天AIGC做詐騙還只是換臉換身,以後完全不用換臉。所以一定要有相應的監管措施。

四、人類關於AGI的實現時間,縮短了多少?

本站科技:Sora的誕生意味着AGI(通用人工智能)實現可能從十年縮短至一兩年?如何看待AGI的發展和sora給AGI演變進程帶來的影響?

360公司創始人、董事長兼CEO周鴻禕:Sora的出現,意味着 AGI實現將從10年縮短到一兩年。我認爲,AGI發展有幾個階段:第一階段:人工智障,連人類的語言都不理解。第二階段:是人工智能拐點,有腦子,能跟人的交互能力。GPT已經做的很好,核心就是語言、思想、邏輯層面的交互。第三階段:就是通用人工智能(AGI)階段,從識別物體和識別物體之間的邏輯關係(Gemini),進化到能夠識別物體跟物體之間互動和交互關係,並且建立對透視的理解(Sora)。進而能夠在具身智能、自動駕駛方面取得突破。

所以,Sora正好補上了這一塊,就是通過對世界觀察後理解一些運行規律,再附到機器人身上,他就已經會有很大的改善。瞭解這個運行規律,比如太陽東昇西落,並不等於就把伽利略公式就做出來了,所以這裡面還沒有到公式這一步。所以不要拿這個來苛求。

第四階段:有手有腳,強人工智能時期。AI能夠附體在一個車上、一個機器人身上,能夠走出去,伸出手去感知這個世界,去感知重力加速度,去感知阻力,去感知抵抗力,如果做到這一點,AI和人類對世界的認知就完全一樣了。第五階段:是有悟性,超級人工智能時期。從現象中總結出物理定律和數學公式,實現對世界的抽象理解。

哈爾濱工業大學計算學部教授左旺孟:數據對AI和AGI的發展仍起着至關重要的作用,Sora可以通過生成數據對AI和AGI起到一定的推動作用,但不會這麼顯著地縮短AGI的實現時間。

新壹科技CEO雷濤:Sora的誕生肯定是給AGI(通用人工智能)注入強心劑,代表AGI在視頻生成領域的突破。不過,AGI的實現是複雜漫長的過程,需要面對很多技術挑戰,諸如說跨領域靈活性、常識推理、情感理解等等。將Sora的影響簡單歸結爲縮短AGI實現時間,可能過於樂觀。

Sora的問世,更多的意義在於,證明了大型語言模型在視頻生成領域的潛力,拓展了AGI的發展路徑。

南京大學智能科學與技術學院副教授、博士生導師易子立:多模態基礎模型是通往AGI的必經之路,而視覺(特別是視頻)和自然語言的統一是多模態基礎模型的必經之路。目前的科技進展,只能說讓我們離AGI又近了一步,但我們距離AGI的終極目標依然很遙遠。要攻克AGI,還有很多問題要解決,包括多模態基礎模型、長期記憶、終身學習、自省學習、常識推理等。

北京大學人工智能博士,斯坦福創業導師張有魚:那一天的起點,還是在於LLM大語言模型,LLM解決了最難的語言理解的問題,是世界知識的壓縮。而SORA在此基礎上,從視覺角度進一步理解了物理世界,僅僅通過視頻現象的學習,就可以理解了物理世界,這一天來得如此迅速,而整個社會還沒有完全準備好。

如果說之前所有新的技術或產品出現,普及和應用是有一個比較長的過程。但今天一個大模型的發佈,無論是硅谷最前沿的,還是一個遠在非洲的偏遠地區的人,拿到的東西是一樣的,而且還是強大無比的生產力工具,唯一限制你的,只是你的想象力。這是人類歷史上從來沒有過的。

所以無論是從個人,企業,政策,社會,國家等多個層面都需要同步面對這個變化甚至衝擊,這個過程中難免會產生諸多的問題,如這幾天發生的賣課的亂相。但這個技術潮流無法避免,那就需要更多的力量共同來面對。這個挑戰我們無法失敗,也沒有人失敗得起。

本站科技:文生視頻模型從生成視頻開始,但絕不會從視頻這裡結束。在未來,您比較看好哪些相關什麼應用和創新嘗試?

新壹科技CEO雷濤:比較典型的場景像影視製作與後期處理、虛擬形象與虛擬人【主要用於遊戲、社交、廣告】領域;教育培訓行業【類似虛擬實現、模擬演示】,還有藝術創意設計這方面,文生視頻模型可以帶來創意靈感。

美圖公司技術副總裁兼美圖影像研究院負責人劉洛麒:人工智能作爲一種基礎的科技,隨着進一步的深入發展,相信對各個工種,各個行業都會有或深或淺的影響。結合現有業態,我們也比較看好在電商、廣告、遊戲、動漫、影視等視覺創作場景的率先發力。

本站科技:人工智能從生成文字到圖片再到如今的視頻,您覺得sora們是終極形態嗎?如果用一句話展望人類的人工智能發展事業,您會說什麼?

中國人民大學高瓴人工智能學院教授盧志武:Sora最吸引人的地方是對物理世界的模擬,AI可以通過觀看視頻來自動抽取物理規律,這相當於物理學家的角色,後續的想象空間非常大。

香港大學教授、徐圖智能CEO徐東:10年前大家覺得通用人工智能的時代遲早會來,但現在我們應該全體all in人工智能,全人類都應該積極的去擁抱人工智能,因爲通用人工智能時代即將到來。當然,監管也要同步跟上。

哈爾濱工業大學計算學部教授左旺孟:GPT和Sora應該還不能算是人工智能的終極形態,一個完整的AI系統還應該具備更好的感知和交互能力。我希望未來的人工智能能夠跟人類共存,一方面爲人類的衣食住行和生活生存提供便利和保障,另一方面爲人類的理解、探索和創造活動提供支持。

鬆應科技創始人&CEO聶凱旋:今天看到的sora還遠不是終極形態,sora模型只是看世界的其中一種角度,他通過視覺觀察 + 模仿,利用計算機繪製出感官上連貫且逼真的二維畫面,但其並不理解物理規律和邏輯,也沒有因果關係。不過OpenAI運用GPT+Sora組合,代表了一種看世界的新方式。

人工智能要落地物理世界並引領產業升級,則需要構建一個理解且基於物理定律、高精度運算的三維仿真模擬器,讓其作爲AI人工智能與物理世界生產系統融合的載體,例如在交通運輸、工業製造、移動機器人、醫療機器人、工程建築等領域。我們看到目前最接近三維世界模擬器的是全球芯片巨頭NVIDIA的Omniverse平臺,國內則有鬆應科技ORCA智能模擬平臺也在迎頭趕上。

通往全人工智能的道路不止一條,無論是基於認知數據的模型,還是基於物理規律的模型,都是積極探索和推動發展的進化方式,都值得深度投入和廣泛實踐。

美圖公司技術副總裁兼美圖影像研究院負責人劉洛麒:Sora不會是最終形態,儘管目前它的效果非常驚豔,但在物理邏輯、敘事風格與視覺風格統一、局部細節、轉場協調和連貫性等方面都還有很大的優化空間,整體還是一個漸進性的發展形態,技術快速迭代的背景下,我們也期待一個革命性時刻的到來。

南京大學智能科學與技術學院副教授、博士生導師易子立:我們目前只是踏出了萬里長征的第一步,我們距離終極AGI還很遙遠。

北京大學人工智能博士,斯坦福創業導師張有魚:不會是終極,但最重要的兩塊基石已經形成了,給整個社會創新帶來了巨大的突破。一句話:對人類好一點。

(受訪者排名不分先後)

本文系本站科技報道,更多新聞資訊和深度解析,關注我們。