☰

英偉達對外展示了一款模型，可以生成音樂和音頻

當地時間11月25日，芯片巨頭英偉達展示了一款用於生成音樂和音頻的人工智能模型Fugatto。該模型可以根據文本提示修改聲音、產生新的聲音。不過英偉達目前沒有公開發布Fugatto技術。有業內人士對澎湃科技表示，音頻模型是AI的常規應用，英偉達推出這一模型更多得是爲了展示AI的能力，從而促進其顯卡得銷售。

據瞭解，新模型面向音樂、電影和遊戲製作商。它可以改變錄音的口音和情緒，將鋼琴演奏轉換成人聲歌唱，具體來講，Fugatto可以分離歌曲中的人聲，添加樂器，將鋼琴換成歌劇歌手來改變旋律。英偉達表示，新模型可以創造出“從未聽過的聲音”，比如可以使小號吠叫或者薩克斯發出貓叫聲。

Fugatto建立在英偉達團隊此前在語音建模、音頻編碼和音頻理解等領域的工作基礎上，完整版本使用25億參數。新模型根據開源數據在包含32個英偉達H100 Tensor Core GPU的NVIDIA DGX超級計算機系統上進行訓練。

英偉達表示，爲了構建Fugatto模型，研究人員收集數百萬個音頻樣本的數據集並創建指令，擴展了模型可以執行的任務範圍，同時實現了更準確的性能，並在不需要額外數據的情況下完成新任務。在推理過程中，模型使用一種稱爲ComposableART的技術來組合僅在訓練期間單獨看到的指令，例如提示詞組合可以要求用法國口音講述悲傷的文字，實現用戶對文本指令的精細控制。

“如果我們回想一下過去50年的合成音頻，現在的音樂聽起來不同了，因爲有了電腦和合成器。”英偉達應用深度學習研究副總裁布萊恩·卡坦扎羅（Bryan Catanzaro）說，生成式人工智能將爲音樂、電子遊戲以及想要創造東西的普通人帶來新的能力。

有網友詢問何時能使用該模型，但同時也有網友表示擔憂，並表示“這是重罪”，“參與這項研究的每個人都應該被關進監獄，原因很明顯。不要擾亂藝術、音樂和媒體。”

英偉達表示目前仍在討論是否以及如何將其公開發布。生成式AI模型的創造者尚未確定如何防止濫用該技術，例如用戶生成錯誤信息或生成受版權保護的角色來侵犯版權。“任何生成技術都會帶來一些風險，因爲人們可能會用它來生成我們不希望他們使用的東西。”卡坦扎羅表示，因此需要對此保持謹慎，“這就是爲何我們沒有立即發佈這款模型。”

值得注意的是，除英偉達的Fugatto以外，來自Stability AI、OpenAI、谷歌DeepMind等公司也開發了人工智能音頻工具，但其他公司都沒有聲稱能夠創造出全新的和聞所未聞的聲音。一些人工智能初創公司甚至因其音樂創作工具而面臨版權訴訟。

英偉達對外展示了一款模型，可以生成音樂和音頻

相關資訊