挑戰Sora 劍指音效師 Pika的AI視頻不再“靜音”

出品|本站科技《態度》欄目

作者|丁廣勝

1. 如何讓文生視頻更好用,Pika再下一城。不僅僅是文生視頻,AI連音頻也一併搞定,且非常逼真。Pika說不好意思他們不再“靜音”了,音頻生成包括兩個方法,一是輸入Prompt,二是直接根據視頻內容匹配生成。Pika把這一功能稱爲“Sound Effects”。目前開放測試版給到“超級合作者和專業用戶”。

2.輸入Prompt生成音頻或許不值得特別驚訝,大家樂見其成的是“根據視頻生成”,即你讓AI生成了一段視頻,Pika根據視頻再幫你搞定音頻,且這個音頻完全符合現實世界——讓我想起了電影工業的昂貴“手藝人”音效師——又一個即將失業的羣體?

3.“這是工程上的一個小進步,從技術角度來講,沒什麼”。英諾天使基金合夥人王晟告訴本站科技《態度》,雖然Pika生成質量方面還有不少問題,但這是趨勢,AI把各種模態都統一起來,用一個Prompt去解決,這大大提升了視頻製作的流程和效率,AI讓這個事情變得非常簡單,但本質上技術難度不大。

4.在Pika的x博文留言區,引來了音頻工作者的質問:能分享一下訓練音頻的數據嗎?許多創作者擔心他們的作品在未經他們同意的情況下被你們使用。

5.文生音頻其實比文生視頻要成熟。經過本站科技粗略統計,市面上公開可用的文生音頻工具多達50+款,但生成質量層次不齊。比如,倫敦創業公司Stability AI在靠文生圖獲得大量關注之後,就曾於2023年推出Stable Audio,用prompt的方式寫歌,描述音樂流派、樂器、畫面、感覺就可以生成一段音樂demo。

6.多模態是大勢所趨,AI將重塑創作的每一個角落。從大模型在文生圖應用的大放異彩,再到文生視頻Sora的驚豔衆人。AI定會不斷的給我們驚喜,從文本、音頻、視頻的全鏈條AI化,這是通往AGI的天然場景,也可能是證明AGI的絕佳方式。

7.Pika創始人郭文景稱其對標的產品就是Sora,當Sora橫空出世之時,所有人都在爲Pika捏一把汗,郭文景當時的表態是:“振奮人心,籌備直接衝”。今天率先推出文生視頻的音頻生成功能,想必是她衝擊Sora的其中一步。

8.這家公司成立於2023年4月,同年11月發佈了Pika 1.0。Pika1.0的主要功能是:一是用文本和圖像生成視頻,只需要輸入幾行文本或上傳圖像,就可以創建簡短、高質量的視頻;二是編輯更改視頻,輸入相關文本,實現對背景環境、衣着道具等元素的增減或者更改;三是切換視頻風格,例如在黑白、動畫等不同風格中轉化;四是更改視頻的寬高比。2024年2月28日,Pika 推出新功能 Lip Sync,允許用戶爲視頻添加語音對白,並實現嘴脣同步的效果。而後,最新的更新便是今天這次。

9.給大家看看demo:

Pika Sound Effects音頻功能demo(來源:本站科技報道)