智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

智東西(公衆號:zhidxcom)作者香草編輯李水青

全量上線,免費可用!

智東西7月26日報道,今天一早,大模型獨角獸智譜AI正式發佈視頻生成工具清影,可支持文生、圖生6秒時長的視頻,即日起在PC端、手機App端以及小程序端面向所有C端用戶免費開放。

先來看看效果,以下是幾個官方放出的文生和圖生視頻案例,覆蓋人像、動物、3D卡通等場景:

從Demo來看,清影的生成效果雖然相比Sora等還有一定進步空間,但就整體而言流暢度、運動幅度等都很不錯,無論是人物表情、動作,還是光影變化、鏡頭移動,都沒有明顯的卡頓和突兀感,對運動幅度的把控也恰到好處,不會看起來像PPT也不會過於誇張。

此外,雖然生成是完全免費的,但生成視頻需要排隊,智譜AI提供了兩種加速排隊的訂閱方式,包括5元加速1天、199元加速1年。

清影API今天也同步上線,企業和開發者都可以通過調用API的方式,體驗並使用清影的文生、圖生視頻能力,據稱這也是國內上線的首個視頻生成API。

據智譜AI CEO張鵬解讀,清影基於自研的底座視頻生成模型CogVideoX打造,能將文本、時間、空間三個維度融合起來。該模型參考Sora算法設計,採用了DiT架構,相比前代CogVideo模型推理速度提升了6倍。

智譜AI成立於2019年6月,起源於清華大學計算機系知識工程實驗室,專注於開發新一代認知智能大模型。一直以來,智譜AI以對標OpenAI全模型產品線爲線索,陸續研發了包括文本、代碼、圖像、Agent等方面的自研模型和產品矩陣。此次發佈基於CogVideoX的清影,使其大模型矩陣又擴充類一個模態。

值得一提的是,這也是國內做語言大模型起家的大模型獨角獸,首次推出視頻生成產品——之前這個賽道更多的是字節、快手等短視頻大廠,以及愛詩科技、生數科技等專注於視頻生成模型的創企。

清影具體有哪些特點?其底層模型在哪些方面做了創新?具體效果如何?智東西第一時間上手實測了一番,有以下幾點發現:

1、簡短的提示詞效果更好,複雜指令下會丟失細節。

2、人手仍是重災區,容易出現畫面閃爍的現象。

3、生成很快,但加上排隊等待時間仍達到1-2分鐘。

4、相比圖生視頻,文生視頻的穩定性更高。

當然,有限次的體驗無法做到全面,也歡迎感興趣的讀者朋友,在評論區分享體驗感受和新發現~

一、半分鐘生成6秒視頻,複雜指令、內容連貫

清影主要有4個特點:生成速度快、複雜指令遵從能力強、內容連貫性高以及畫面調度幅度大。

首先在生成速度上,清影AI據稱可以在30秒內生成一段6秒、幀率16fps、分辨率1440*960的視頻。

▲實時演示視頻生成(動圖有加速)

其次,在複雜指令遵從能力上,智譜AI自研了視頻理解模型,用於爲視頻數據生成高度吻合的文本描述,進而構建了海量高質量視頻文本對,提升了指令遵循度。

▲複雜指令演示

清影的第三個特點是內容連貫性,能夠比較好地還原物理世界當中的一些運動的過程。

例如基於這張大家熟悉的杜甫畫作,清影讓杜甫不僅動了起來,而且非常自然順滑地端起了一杯咖啡。

▲內容連貫性

最後在畫面調度方面,清影採用文本、時間、空間融合的Diffusion Transformer架構,可生成遵循特定運動規則的動態視頻。

智譜AI豪邁地放出了幾十個Demo,其中不乏有一些效果驚豔,比如這個:木頭上長出兩朵奇特的透明塑料花。

“透明塑料花”不是真實存在的,清影的想象力和審美在這個案例中得以展現。

再比如這個:比得兔開小汽車,遊走在馬路上,臉上的表情充滿開心喜悅,全景畫面。

清影繪製的兔子表情很豐富,沒有出現五官扭曲的情況,前後景別還加了景深處理。

人像案例清影也拿捏住了,比如這個提示詞:油畫風格,美麗的少女側顏,光透過樹形成斑駁的影子,柔光落在她臉上。

整個畫面光影對比鮮明,不過漏失了“油畫”、“斑駁的影子”等細節。

二、實測上手有驚豔也有翻車,付費加速有些雞肋

官方演示雖好,但清影到底好不好用,還是得自己試一下才能知道。打開清影網頁端,可以看到有文生、圖生視頻兩種功能。

▲清影網頁端

在文生視頻中,我可以選擇視頻風格,包括卡通3D、黑白老照片、油畫等;也可以選擇情感氛圍,包括溫馨和諧、生動活潑、緊張刺激、淒涼寂寞等;運鏡方式包括水平、垂直、推近、拉遠四種。

在圖生視頻中,我可以爲圖片添加文字描述,如果不知道寫什麼也可以空着,或是讓系統隨機生成一個提示詞。

▲兩種模式

首先我嘗試了一組動物場景的提示詞,第一個爲:一隻藍貓在貓爬架上,正在吃主人遞過來的芝士漢堡,情感氛圍選擇了溫馨和諧。

可以看到,清影準確理解了提示詞,整體效果還是很不錯的。對於提示詞中細節,包括貓的品種、漢堡的種類以及“遞過來”的動作等,都表達得比較精準,人手也沒有翻車。

第二個提示詞爲:一隻橘貓把鼠標推下桌子,情感氛圍爲生動活潑。

這次清影表現得一般,鼠標上莫名其妙拴了一隻小老鼠就算了,“推下桌子”的動作也是完全沒有體現。

前兩個提示詞都屬於寫實場景,第三個提示詞則有些“魔幻現實”:一隻白貓在車裡駕駛,穿過繁忙的市區街道,背景是高樓和行人,情感氛圍爲緊張刺激。

清影對於這個提示詞的理解和呈現都還比較準確,背景中動態場景的運動幅度、一致性也比較高,但是穩定性還有所欠缺,畫面會出現抖動的情況。

第二組提示詞我嘗試了人物場景。首先來試試經典的吃麪:一個男人坐在桌邊吃麪條,情感氛圍爲淒涼寂寞。

在這個經典難題上,清影的表現還算可以,乍一看沒什麼錯誤。但細看之下,男人吃麪的餐具用的是勺子,麪條的形態也有些僵硬。

第二個提示詞是:一個女孩坐在米色沙發上,專心地用鉤針勾着一頂淺藍色帽子,情感氛圍爲溫馨和諧。

這條提示詞中我加入了色彩的細節,清影都準確地表現了出來。女孩的鉤織動作也比較真實,就是人手非常“鬼畜”。

第三個提示詞爲:漂亮的水色瞳孔特寫,寫實風格,超清,情感氛圍爲淒涼寂寞。

清影生成的視頻基本上滿足了我的預期,不過在特寫鏡頭下,人物的皮膚和毛髮都顯得有些“油膩”。

最後我嘗試了讓清影自己生成提示詞,它直接整了這麼長一段:雨天的咖啡館,以窗戶爲媒介拍攝一個英式咖啡館內部,要清晰的拍攝咖啡館內部,捕捉咖啡館內的溫馨氛圍,然後變焦,對焦在雨滴拍打的窗戶上。細節上,注意捕捉顧客們的交談和笑容,以及雨水在窗戶上形成的光影效果,營造出舒適而寧靜的氛圍。

結果很遺憾,清影自己給自己挖了個坑,生成的不能說是視頻,稱之爲動圖都有些爲難。畫面僅僅是平移放大了一圈,也沒能體現提示詞中的大部分內容。

體驗完文生視頻後,我又嘗試了圖生視頻。

首先在上傳圖片時,清影會提醒我對圖片進行裁切,且只能裁成進行固定比例的橫圖,這就造成了一定的侷限性。上傳圖片之後,我輸入提示詞:花瓣在風中搖動。

生成效果還是比較準確的,不過這個提示詞本身的難度也不算大。

接着我上傳了一張靜物圖,這次沒有輸入提示詞,看看清影會如何自由發揮。

這張圖上有很多獨立的物體,清影並沒有讓它們整體運動而是爲每個“小糰子”添加了不同動態,整體畫面比較生動活潑。

第三張圖我上傳了一張戴着墨鏡的人像,提示詞爲:男孩把墨鏡摘下來。

這個提示詞的難度很大,而且涉及到“無中生有”的部分。清影成功表現了“摘墨鏡”這一動作,不過摘了是摘了,但沒完全摘,墨鏡還在人臉上掛着,視頻後半段還出現了人體不自然的扭曲。

如果不要求它憑空生成人臉又會如何?我有上傳了一張舉着攝像機的人像照片,提示詞改爲:男孩轉身面向鏡頭。

結果這次清影反而整了個人臉出來,就是沒有眼白有些嚇人……不過忽略臉的話,這次生成的效果轉身幅度更大,人物的頭髮也隨風飄動,就是他手中的器材變了個模樣,人手也有些不自然。

一番體驗下來,清影生成視頻的效果有的驚豔到我,比如第一個小貓吃漢堡的例子,文字理解十分準確;也有的翻車嚴重,比如咖啡廳、橘貓的例子中,失誤都比較大。

整體來看,清影在生成速度上確實比較快,雖然較宣傳的30秒還有些偏差,但差不多1分鐘左右就能生成視頻;在運動幅度、語義理解等方面,會比較看運氣,不過這也是所有視頻生成工具的通病。與市面上其他公開可用的工具相比,清影在生成時長、清晰度方面還有一定的進步空間,不支持畫面比例的選擇也是一大遺憾。

值得一提的是,清影目前的視頻生成是完全免費的,不需要會員訂閱也沒有數量限制。不過在排隊生成的過程中,清影提醒我可以加速。點擊加速的按鈕,可以看到它提供了兩種訂閱方式:5塊錢加速1天,或是199元加速1年。

▲加速排隊

該說不說,這個價格還是很實惠的,但爲啥我加完速排隊時間一點也沒減少呢……唯一的變化就是,從“排隊中”變成了“加速排隊中”。可能費用太便宜了,大家都加速就相當於沒加速吧(doge)。

三、自研端到端視頻模型,首個API同步上線

清影基於智譜AI自研的底層模型CogVideoX打造,具有內容連貫、可控性高等特點。

在內容連貫性方面,智譜AI自研了一個高效的三維變分自編碼器結構,稱之爲3D VAE。它能夠將原視頻空間壓縮至2%的大小,大大減少視頻擴散生成模型的訓練成本和難度,再配合3D RoPE(旋轉位置編碼)模塊,有利於在時間維度上捕捉幀間關係,建立食品中的長程依賴。

在可控性方面,智譜AI自研了一個端到端的視頻理解模型,用於爲海量的視頻數據生成詳細的、貼合內容的描述文本,從而增強模型的文本理解和指令遵循的能力,使生成視頻更符合用戶的輸入,理解超長的複雜指令。

在模型結構上,CogVideoX採用了將文本、時間、空間三個維度全部融合起來的Transformer架構,摒棄了傳統的交叉注意力(Cross-Attention)模塊,將文本和視頻兩個不同模態的空間進行對齊,能夠更好地進行模態交互。

▲CogVideoX特點

張鵬稱,在CogVideoX的研發過程中,智譜AI有一次驗證了Scaling Law在視頻生成方面的有效性和可靠性,未來團隊會在繼續擴大數據規模和模型規模的同時,尋找更具突破式創新的模型架構。

智譜AI又一次實現了對OpenAI全模型產品線的對標。

▲智譜AI對標OpenAI全模型產品線

在算力方面,清影是在北京亦莊AI公共算力平臺上訓練而來的。數據層面,智譜AI與Bilibili、華策影視等進行了合作。

張鵬談道,雖然視頻生成模型纔剛剛起步,但已經受到了很多產業和客戶側的需求,涉及電商產品宣傳、影視特效等領域。

今天起,清影AI也同步在智譜AI大模型開放平臺上線了API,企業和開發者都可以通過調用API的方式體驗並使用CogVideoX的文生、圖生視頻能力,據稱這也是國內上線的首個視頻生成API。

隨着清影能力的加入,智譜AI旗下的AI助手清言App在功能的全面上再下一城,覆蓋對話、生圖、代碼、Agent和視頻。

智譜AI還準備了一個One more thing——視頻生視頻能力。不過準確來說,這相當於是一個手動視頻生視頻的能力:基於智譜AI近日開源的視頻理解模型CogVLM2-Video,用戶可以上傳視頻並提取出詳細的文字描述,再將文字輸入清影,實現“視頻生視頻”的效果。

▲視頻生視頻

結語:又一強力玩家入局AI視頻生成

Sora發佈後,AI視頻生成迎來“第二春”,無論是技術、產品的迭代,還是資本市場的關注,都達到了新的高度。光是本週,就有快手宣佈全球上線、愛詩科技發佈第二代模型,以及今天智譜AI入局等重磅進展。(視頻生成大戰2.0!大廠狂卷底層模型,創企5個月吸金44億)

不同於此前的文本、圖像模型賽道,國內長期處於追逐OpenAI等海外企業進展的狀態。在視頻生成領域,國內的大廠、創企在短短几個月內實現彎道超車,不僅打磨出了高質量的底層模型,而且個個公開可用甚至免費,給至今仍是期貨的Sora上了一課。