AI視頻中看不用?百度不做視頻模型的原因很簡單

自打ChatGPT讓人工智能這個概念迎來第二春,百度創始人李彥宏也重新活躍了起來,成爲了幾乎是最愛發聲的互聯網大佬。 在此前先後發表AI終結程序員、開源模型會 越來越 落後等言論之後,有消息稱在最近舉行的百度2024年第三季度總監會上他又放話,“百度不碰Sora類的視頻生成。 ”

那麼他對Sora這種文生視頻模型潑冷水,到底是因爲百度有力未逮,還是認爲文生視頻模型做不出商業價值呢?儘管目前百度方面並沒有推出視頻模型,國內市場也基本是快手可靈與抖音即夢在打擂臺,但尚未涉及文生視頻賽道的百度也並不屬於“吃不到葡萄就說葡萄酸”。畢竟作爲國內率先押注AI的廠商,百度的技術實力無需多言。

況且類似Sora這樣文生視頻模型的技術原理並不晦澀,OpenAI都已經把Transformer架構+擴散模型的組合擺在了檯面上。除了抖音和快手擁有大量可用於訓練的短視頻資源之外,與愛奇藝關係匪淺的百度顯然也不會缺少訓練這類模型的語料。所以問題的關鍵,很可能在於視頻模型本身的盈利能力存疑。對此李彥宏表示,Sora這種視頻生成模型的投入週期太長,10年、20年可能都拿不到業務收益。

此前在今年年初,OpenAI放出的Sora確實給了外界巨大的震撼。畢竟在Sora亮相之前,業界最好的文生視頻產品Runway、Pika,也都只能做到生成一段不到十秒的視頻,與其說它們生成的是視頻、還不如說是一段GIF,而Sora當時就做到了生成連貫的一分鐘視頻,且展現出了在多角度多鏡頭切換中保持一致性,以及遵循現實世界物理規律的能力。

在短視頻席捲全球的情況下,當時Sora的出現曾被外界認爲是實現“技術普惠”的曙光。Sora的橫空出世也直接開啓了視頻模型的“大躍進”,包括海外的Runway、Pika先後進行迭代,開始逐步追上了Sora的水平,而國內市場的快手可靈、抖音即夢兩大最成熟的產品則實現了“青出於藍而勝於藍”。只是各方針對視頻模型的軍備競賽似乎真的只是爲了秀技術,業界也不約而同地選擇性了忽略成本問題。

此前,風險投資機構Factorial Funds曾以Sora的理論基礎Diffusion Transformers爲基準,對Sora的成本進行過相關測算。根據他們的說法,訓練視頻模型比常規大語言模型的成本高出了數倍,OpenAI訓練Sora是用4211至10528片英偉達H100 GPU訓練了1個月。並且一旦Sora推出後,在Tiktok和Youtube上得到廣泛的應用,那麼OpenAI需要的算力就相當於72萬張H100。

到目前爲止,OpenAI手裡的H100 GPU可能也不會超過10萬片,就算使用“潮汐資源”也覆蓋不了如此巨大的算力缺口。事實上,算力卡還僅僅只是硬件成本中的一部分,運行這些GPU所需的電力同樣也是天文數字,以每片H100的功耗爲700W計算,72萬片的總功耗就將達到50.4萬千瓦,而‌大亞灣核電站的總裝機容量爲612萬千瓦,所以這也是爲什麼微軟、谷歌等大廠會盯上核電的原因。

更爲致命的一點,是目前的視頻模型可用性遠低於大家的想象。Sora這種生成具有連貫性的1分鐘長視頻還僅存在於理論中,現實情況是視頻片段的一致性問題到現在都沒能得到解決,生成視頻的時間一長、AI就會放飛自我。以快手基於可靈打造的短劇《山海奇鏡之劈波斬浪》爲例,它實際上並不是由多個一分鐘視頻拼接起來,而是由可靈生成了海量5秒時長的分鏡頭,再由後期剪輯團隊剪輯而成。

同理,使用Sora生成的短片《氣球人》也不是純粹使用AI生成,同樣也是人類團隊後期加工的結果。此外,所有的AI生成視頻模型都說要做世界模擬器(world simulators),但現實是AI對於物理規律的理解還是僞命題,如果不進行後期調整,AI直出的視頻會相當之呆板。

由於AI文生視頻只能在數秒內實現內容的一致性,所以對於創作者的價值確實不算大。按照目前快手可靈、Runway視頻模型的收費標準,平均生成一段5s的視頻收費在0.5—2元不等,再加上比一般視頻更高的後期成本,算下來還真不如全人工拍攝。這也就能解釋OpenAI的Sora爲何雷聲大雨點小,AI視頻生成產品Luma AI在9月的總訪問量環比下跌38.49%、Pika總訪問量環比下跌9.78%了。

其實抖音、快手押注視頻模型是有跡可循的,畢竟這也是短視頻平臺實現“人人皆是創作者”的機會。用戶不需要懂得任何視頻拍攝、剪輯的知識,足不出戶就能把文字變成視頻,這對一個強調內容供給,主打無時無刻滿足用戶的平臺來說,他們對於創作者的渴求顯然是無窮無盡的。所以即夢、可靈的存在,代表平臺可以爲每一位用戶插上創造的翅膀,因此就算再燒錢,快手和抖音也會做下去。

可百度完全不一樣,儘管他們確實有短視頻業務,但之於百度還能算得上是“甜點”。再加上百度從來都不是一個以內容見長的互聯網廠商,也沒有自己的短視頻平臺,所以如果貿然去做Sora類的視頻生成模型,又要從哪裡收回成本呢?因此這樣看來,百度確實不該做Sora,真正應該去做的反而是騰訊。

【本文圖片來自網絡】