快手技術副總裁王仲遠:快手以AI技術推動音樂大衆化發展
6月6日,2021全球人工智能技術大會“發展與挑戰”專題論壇在杭州舉行。快手技術副總裁、MMU&Y-tech負責人王仲遠出席論壇並發表《音樂與技術的碰撞交融——藝術如何隨時代變遷》主題演講,分享快手在AI音樂方面的動態與進展,充分展現快手領先的人工智能技術,以及AI音樂爲短視頻帶來的強大助力。
AI技術+音樂深度融合,快手持續提升短視頻觀看體驗
作爲國民短視頻APP,快手擁有海量內容、超大流量和高用戶粘性。數據顯示,平均每月快手用戶上傳的短視頻數量超11億,整體日活達3.7億+,用戶平均每日在快手平臺觀看短視頻和直播內容的時長近100分鐘。
在豐富的快手社區生態中,音樂成爲激勵用戶創作的因素之一。在快手,76%的快手作品有配樂,90%的快手用戶期望大部分短視頻有配樂。
爲何用戶在創作短視頻時,對於音樂有如此強的依賴性?王仲遠表示:“對於短視頻的製作體驗而言,音樂的正向影響至關重要。比如唯美風短視頻如果去掉背景音樂只剩原始聲音,就會削弱其氛圍感,給用戶留下與之前截然不同的印象。”
對此,王仲遠進一步分析了音樂的獨特魅力。在他看來,音樂可以與人的思想情緒聯繫在一起,能夠讓人感到歡喜,感到悲傷,感到期待等。當中國人聽到春節序曲時,往往會產生一種春回大地、萬物復甦的感受,央視春晚主持人的開場詞也不自覺在腦海中浮現。
作爲一種具有魔力的藝術表現形式,音樂也隨着技術的發展而產生新的形式。在工業化時代,製造工藝的改進使得樂器可以發出的聲音更加豐富、層次化。在電子化時代,電子技術的發展創造出自然界機械無法發出的聲音,音樂的表現力更加多元化。
如今,步入人工智能時代,AI技術則幫助音樂實現全面的個性化和智能化,爲音樂和短視頻帶來了新的發展空間。據王仲遠介紹,前段時間火爆全網的《螞蟻呀嘿》正是將音樂和視覺AI技術進行了創意融合,用戶只需要一張照片就可以自動生成詼諧好玩的動態唱歌視頻,再加上魔性的BGM,很快成爲短視頻用戶爭相創作的模板。
AI技術推動音樂大衆化,快手自建模型還原專業級演唱
在技術的加持下,音樂製作進入大衆化時代。如何幫助更多用戶創作出個性化的音樂?快手自主研究了AI音樂創作模型和AI歌手。
從音樂製作流程上來看,大多偏向於流水線化、工程化和模塊化,首先是把握創作動機,然後進行作詞、作曲,之後進行編曲,最後錄音和混音。而通過快手搭建的AI模型,其中的每一步都可以藉助AI完成。
王仲遠表示:“在AI時代,動機變得十分簡單。把隨機關鍵詞輸入快手AI音樂模型中,模型就能把詞轉換成動機的一種表示,乃至於各種初始化的音樂。”
確定好動機之後就可以利用快手AI模塊生成歌詞。在AI歌詞方面,快手針對數百萬已有歌曲對模型進行重新訓練,以確保AI可以很好地理解詞義,讓用戶只需輸入一個主題、一個情感、一個風格,就能在數秒內生成數十首歌詞。
在AI旋律的創作上,快手也採用類似方法,搭建了數十萬首曲譜和百萬首歌曲音頻訓練模型再通過迷你數據庫讓模型自監督學習歌曲的內在關聯,從而訓練AI旋律生成的能力。
據瞭解,快手邀請了平臺內的音樂人使用AI模型來創作新歌曲,已創作的流行音樂有《甜甜的味道》《夜》《勇往直前》等。
錄製一首高質量的成品歌曲,對歌手的演唱水平要求極高。爲了解決部分用戶面臨的唱歌跑調、音色不好聽等問題,快手則推出了AI歌手輔助創作功能,並不斷提升其模型的精準度。
據介紹,2020年5月,AI歌手的演唱還是KTV水平;到2020年12月,普通人已經很難發現AI歌手演唱中的瑕疵;如今,模型會根據曲譜自動調整音高、節拍和歌詞,AI歌手可以逼真地還原出專業級歌手的演唱水平。
演講最後,王仲遠表示:“未來,快手還將探索更多新技術,豐富生成側的玩法。藉助語音識別技術,快手希望AI歌手將來可以模仿個人音色,AI音樂則能夠把說的話直接轉成歌曲,滿足用戶更個性化的音樂創作需求,持續助力短視頻領域創作。”