火山語音引領語音技術革新,聲音復刻2.0版5秒克隆你的聲音

(原標題:火山語音引領語音技術革新,聲音復刻2.0版5秒克隆你的聲音)

僅僅需要五秒鐘就能復刻你的聲音?

快來登錄火山引擎官網在語音技術下的開放產品體驗中心體驗火山引擎聲音復刻2.0版本的驚豔效果吧!

火山引擎聲音復刻2.0採用了全新自研語音算法MegaTTS,經專業評測,聲音復刻2.0版本與真人錄音復刻的平均相似度已高達97.5%,不但超過一半的評測人員認爲復刻合成效果與真並無任何差異,而且在金融客服、視頻配音、智能語音助手、虛擬數字人等相關場景均可適用!

五秒鐘復刻:極速獲取高品質AI專屬音色

傳統技術下,通常聲音復刻往往需要用戶錄製20-100句話,並訓練幾分鐘甚至幾小時後纔可就緒,這樣的“復刻門檻”往往讓人缺乏耐心且質量也不盡如人意。

對此,火山引擎音色復刻2.0版本則在全面提升效果品質的同時,還攻克了錄製量級及訓練時長這兩大難關。

其核心算法MegaTTS只需要五秒鐘的數據量,就能對各種風格、口音以及聲學環境下的音色進行克隆。同時MegaTTS算法具有大模型特有的In-context-learning能力,無需對用戶音色進行Fine-tuning就能實現復刻。區別於傳統的音色復刻模型,MegaTTS可以免除訓練時長,即時極速復刻。

高度還原:平均相似度高達97.5%

此外MegaTTS算法還設計了基於注意力機制的細粒度無限長音色提示模塊,以及基於大語言模型的韻律提示模塊,在音色與韻律上都能夠極高還原用戶輸入音頻的發聲特點。

在真實的評測和用戶體驗中,不但還原之後的平均相似度已高達97.5%,環境音也可以被完美重現。

值得提及的是,火山引擎聲音復刻2.0版本爲客戶了提供多種接入方式,並支持雲端接入和私有化集成。無論是在金融客服、視頻配音、智能語音助手、虛擬數字人還是其他語音應用場景中都能快速接入。

語音大模型創新範式 MegaTTS將聲音復刻帶入新境界

火山引擎聲音復刻2.0版本採用了火山語音團隊全新自研語音算法MegaTTS,新一代算法僅需要用戶秒級別的音頻數據即可即時完成對用戶音色、說話風格、口音和聲學環境音的復刻。徹底攻克了傳統聲音復刻對錄音數據量的依賴,超低門檻的數據輸入即可獲得超高品質的AI專屬音色。

實驗結果表明,當數據量在10秒到5分鐘之間時,MegaTTS不僅可以在任意來源的新用戶的短提示下合成保同語音,而且始終優於基於Fine-tuning的基線方法(Portaspeech 2)。

此外得益於音色和韻律獨立建模的方式,火山語音的韻律語言模型可以以細粒度和可控的方式將各種說話風格轉移到目標音色,甚至可以模仿Rap。未來這些功能也會陸續上線,爲更多用戶提供創作空間。

一直以來,火山語音團隊不斷將打磨多年的語音技術能力面向市場並通過火山引擎開放給外部企業,已覆蓋汽車、金融、有聲閱讀、視頻配音等衆多應用場景,技術能力已成功應用到抖音、剪映、番茄小說等多款國民級產品上,並助力多家行業頭部企業實現AI語音能力的應用與拓展。未來火山語音還將不斷探索前沿科技與業務場景的高效結合,持續爲用戶體驗和業務增長注入創新勢能,以實現更大價值。