卡特加特申請基於多模型協作的圖生視頻及配樂專利,大幅降低視頻創作技術門檻

金融界2024年10月18日消息,國家知識產權局信息顯示,北京卡特加特人工智能科技有限公司申請一項名爲“一種基於多模型協作的圖生視頻及配樂的方法及系統”的專利,公開號 CN 118782045 A,申請日期爲2024年7月。

專利摘要顯示,本發明公開了一種基於多模型協作的圖生視頻及配樂的方法及系統,該方法首先利用圖生文大模型對圖片信息進行解析與理解,將其轉換爲語言和文字。隨後,通過文生文大模型將圖片表達的文字信息生成有條理的故事,再利用文生視頻大模型將故事信息轉化爲視頻。視頻生成後,通過解構和抽取算法,從視頻中抽取關鍵幀,並使用圖生文模型進行情感分析,最終結合文生音樂大模型生成配樂。本發明提供了一種將單張圖片轉換爲具有連貫情節和配樂的視頻文件的方法,大幅降低了視頻創作的技術門檻,推動了UGC內容創作的普及。此外,本發明還包括一個用戶友好的APP、電腦網頁和微信小程序系統,方便用戶多途徑使用該技術。

本文源自:金融界

作者:情報員