OpenAI發佈語音模型Voice Engine,出於安全考慮僅小範圍試用

3月30日,OpenAI在官網上公開了其最新的研究成果——“Voice Engine”。這項技術可通過簡短的15秒音頻樣本和文本輸入,生成與原始說話者極爲相似的自然語音。

在公告中,OpenAI給出了Voice Engine的一些早期應用場景。如通過自然、富有情感的聲音輔助兒童閱讀、翻譯視頻和播客等內容、改善偏遠地區的社區服務、幫助患有突發性或退化性言語病症的患者恢復聲音等。

針對上述應用場景,OpenAI也分別給出了和少數“值得信賴”的合作伙伴共同完成的技術案例。兒童教育公司Age of Learning使用GPT-4與Voice Engine與學生進行個性化的交流;人工智能替代通信應用程序Livox通過使用語音引擎,爲殘疾人提供跨多種語言的自然聲音;此前靠“Taylor Swift說中文”等視頻爆火的Heygen也有使用Voice Engine。

OpenAI稱,Voice Engine技術於2022年底開始開發,目前已經爲文本轉語音API和ChatGPT的朗讀功能提供預設語音。至於模型訓練的數據來源問題,OpenAI語音引擎產品團隊成員傑夫·哈里斯 (Jeff Harris)在接受媒體採訪時表示,該模型是根據“許可數據和公開數據的組合”進行訓練的。

儘管此前已經爲“Voice Engine”申請了商標,但是對於未來是否要大規模部署這項技術,OpenAI仍保持保守態度。2024年2月,美國曾發佈了少數公司利用總統的人工智能語音來影響選民投票的事件,類似的潛在風險也是OpenAI選擇先小範圍應用Voice Engine的一大原因。

公告中顯示,由於合成語音存在被濫用的可能性,OpenAI希望就合成聲音的負責任部署以及社會如何適應這些新功能展開討論,根據討論和小規模測試的結果,OpenAI將會對是否大規模部署這項技術做出決定。

OpenAI在人工智能安全方面曾早早做出準備。2023年10月,OpenAI 宣佈成立“準備團隊”(Preparedness team),旨在監測和評估前沿模型的技術和風險;隨後於2023年12月,OpenAI進一步公佈了“準備框架”(Preparedness Framework),介紹了圍繞OpenAI“追蹤、評估、預測和防範災難性風險”所制定的一系列機制。

對於Voice Engine,OpenAI表示正在探索對合成聲音加水印或添加控制措施的方法,以防止人們使用帶有政治家或其他知名人物聲音的技術。