英偉達對外展示了一款模型,可以生成音樂和音頻

當地時間11月25日,芯片巨頭英偉達展示了一款用於生成音樂和音頻的人工智能模型Fugatto。該模型可以根據文本提示修改聲音、產生新的聲音。不過英偉達目前沒有公開發布Fugatto技術。有業內人士對澎湃科技表示,音頻模型是AI的常規應用,英偉達推出這一模型更多得是爲了展示AI的能力,從而促進其顯卡得銷售。

據瞭解,新模型面向音樂、電影和遊戲製作商。它可以改變錄音的口音和情緒,將鋼琴演奏轉換成人聲歌唱,具體來講,Fugatto可以分離歌曲中的人聲,添加樂器,將鋼琴換成歌劇歌手來改變旋律。英偉達表示,新模型可以創造出“從未聽過的聲音”,比如可以使小號吠叫或者薩克斯發出貓叫聲。

Fugatto建立在英偉達團隊此前在語音建模、音頻編碼和音頻理解等領域的工作基礎上,完整版本使用25億參數。新模型根據開源數據在包含32個英偉達H100 Tensor Core GPU的NVIDIA DGX超級計算機系統上進行訓練。

英偉達表示,爲了構建Fugatto模型,研究人員收集數百萬個音頻樣本的數據集並創建指令,擴展了模型可以執行的任務範圍,同時實現了更準確的性能,並在不需要額外數據的情況下完成新任務。在推理過程中,模型使用一種稱爲ComposableART的技術來組合僅在訓練期間單獨看到的指令,例如提示詞組合可以要求用法國口音講述悲傷的文字,實現用戶對文本指令的精細控制。

“如果我們回想一下過去50年的合成音頻,現在的音樂聽起來不同了,因爲有了電腦和合成器。”英偉達應用深度學習研究副總裁布萊恩·卡坦扎羅(Bryan Catanzaro)說,生成式人工智能將爲音樂、電子遊戲以及想要創造東西的普通人帶來新的能力。

有網友詢問何時能使用該模型,但同時也有網友表示擔憂,並表示“這是重罪”,“參與這項研究的每個人都應該被關進監獄,原因很明顯。不要擾亂藝術、音樂和媒體。”

英偉達表示目前仍在討論是否以及如何將其公開發布。生成式AI模型的創造者尚未確定如何防止濫用該技術,例如用戶生成錯誤信息或生成受版權保護的角色來侵犯版權。“任何生成技術都會帶來一些風險,因爲人們可能會用它來生成我們不希望他們使用的東西。”卡坦扎羅表示,因此需要對此保持謹慎,“這就是爲何我們沒有立即發佈這款模型。”

值得注意的是,除英偉達的Fugatto以外,來自Stability AI、OpenAI、谷歌DeepMind等公司也開發了人工智能音頻工具,但其他公司都沒有聲稱能夠創造出全新的和聞所未聞的聲音。一些人工智能初創公司甚至因其音樂創作工具而面臨版權訴訟。