☰

Stable AI推出可透過文字描述生成44.1kHz規格、長度達3分鐘立體音訊的Stable Audio 2.0

推出Stable Diffusion影像生成工具的人工智慧業者Stable AI，近期宣佈推出其新款語音生成模型Stable Audio 2.0，將能透過文字產生時間長度達3分鐘的44.1kHz規格立體聲音訊，相比先前版本僅能產生45秒明顯有大幅成長。

Stable Audio 2.0跟1.0版本一樣，都是透過AudioSparx收錄超過80萬組音訊資料進行訓練，除了可透過文字產生音訊內容，更可透過上傳參考音訊樣本，讓使用者透過自然語言描述方式生成不同音訊內容，並且透過風格轉換工具進行後續調整。

而Stable Audio 2.0可產生音質達44.1kHz規格的立體聲音訊，同時長度更可長達3分鐘，幾乎是多數歌曲常見長度，預期可讓更多創作者生成所需配樂、音訊內容。

目前Stable Audio 2.0已經對外免費開放使用，使用者能透過Stable AI或Google帳號登入後操作。

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

相關資訊