英偉達展示人工智能新模型 能修改聲音生成新聲音

11月26日消息,美國芯片製造商英偉達當地時間週一展示了一種能生成音樂和音頻的人工智能新模型。這種人工智能模型主要面向音樂、電影和視頻遊戲的製作人,可以修改聲音併產生新奇音效。

英偉達目前是全球最大的人工智能系統芯片和軟件供應商。公司表示,雖然這項名爲“Fugatto”(Foundational Generative Audio Transformer Opus 1縮寫)的技術有發展潛力,但目前還沒有公開發布這項技術的計劃。

“Fugatto”與Runway等初創公司和Meta等大科技公司展示的技術類似,能夠根據文本提示內容生成音頻或視頻。不過,英偉達的新模型有自己的獨到之處:其可以根據文本描述生成特定音效和音樂,比如讓小號發出像狗叫一樣的新奇聲音。

“Fugatto”與其他人工智能技術的不同之處在於,能夠消化和修改現有音頻。例如,它可以將鋼琴演奏的一段旋律轉換成人聲演唱,或者改變錄製音頻中的口音以及表達出來的情緒。

英偉達應用深度學習研究副總裁布萊恩·卡坦扎羅(Bryan Catanzaro)說:“回顧一下過去50年中的合成音頻,現在的音樂聽起來大不相同,主要是因爲有了電腦和合成器。”“我認爲生成式人工智能將爲音樂、電子遊戲以及想要創造東西的普通人帶來全新能力。”

雖然OpenAI等公司正在與好萊塢電影公司就是否以及如何將人工智能用於娛樂行業進行談判,但隨着好萊塢明星斯嘉麗·約翰遜(Scarlett Johansson)指責OpenAI模仿她的聲音,科技公司與好萊塢之間的關係變得日益緊張。

英偉達的新模型是用開源數據訓練的。公司表示,仍在討論是否以及如何公開發布這項技術。

卡坦扎羅說:“任何生成式技術都有一定的風險,因爲人們可能會用它來生成我們不希望他們做的東西。”“我們必須小心這一點,這就是爲什麼我們沒有立即發佈這項技術的原因。”

生成式人工智能模型的開發者仍在探索如何防止用戶濫用技術,比如該怎麼杜絕用戶生成虛假信息或創造出受版權保護的角色、造成侵犯版權的行爲等等。

同樣,OpenAI和Meta也沒有宣佈他們計劃什麼時候向公衆發佈能生成音頻或視頻的模型。(辰辰)