格靈申請基於語音的人像視頻生成專利,能夠精準生成音畫同步的數字人視頻
金融界2025年1月28日消息,國家知識產權局信息顯示,深圳市格靈人工智能與機器人研究院有限公司申請一項名爲“基於語音的人像視頻生成方法和裝置、設備及存儲介質”的專利,公開號CN 119359867 A,申請日期爲2024年9月。
專利摘要顯示,本申請實施例提供了一種基於語音的人像視頻生成方法和裝置、設備及存儲介質,屬於人工智能技術領域。該方法包括:獲取目標人像的樣本人像圖像和樣本語音數據;對樣本人像圖像進行人像特徵提取,得到樣本人像特徵信息;將樣本語音數據和樣本人像特徵信息進行對齊處理,得到語音人像對齊信息;根據語音人像對齊信息和樣本人像圖像對預設人像視頻幀生成模型進行參數優化,得到目標人像視頻幀生成模型;獲取目標語音數據,並通過目標人像視頻幀生成模型、目標語音數據和樣本人像特徵信息進行人像視頻幀生成,得到目標人臉視頻幀;將目標語音數據和目標人臉視頻幀進行音像拼接,得到目標人像語音視頻。本申請實施例能夠精準生成音畫同步的數字人視頻。
天眼查資料顯示,深圳市格靈人工智能與機器人研究院有限公司,成立於2018年,位於深圳市,是一家以從事軟件和信息技術服務業爲主的企業。企業註冊資本10000萬人民幣,實繳資本3500萬人民幣。通過天眼查大數據分析,深圳市格靈人工智能與機器人研究院有限公司共對外投資了1家企業,參與招投標項目3次,專利信息27條,此外企業還擁有行政許可5個。
本文源自:金融界
作者:情報員