☰

微軟「詐騙屆」王牌框架，真到可怕！一張照片+音頻即可生成數字人

新智元報道

編輯：LRS

【新智元導讀】想要做出一段能夠「以假亂真的人物說話視頻」的門檻到底低到什麼程度了？僅需一張照片加一段音頻，就能生成一段堪稱真實到可怕的假視頻，以後法庭上視頻證據還有可信度嗎？

在人物說話的過程中，每一個細微的動作和表情都可以表達情感，都能向觀衆傳達出無聲的信息，也是影響生成結果真實性的關鍵因素。

如果能夠根據特定面容來自動生成一段生動逼真的形象，將徹底改變人類與人工智能系統的交互形式，例如改善有障礙患者的交流方式、增強人工智能輔導教育的趣味性、醫療保健場景下的治療支持和社會互動等。

最近，微軟亞洲研究院的研究人員拋出了一個重磅炸彈VASA-1框架，利用視覺情感技巧（VAS，visual affective skills），只需要輸入一張肖像照片+一段語音音頻，即可生成具有精確脣音同步、逼真面部行爲和自然頭部運動的超逼真說話面部視頻。

論文鏈接：https://arxiv.org/pdf/2404.10667.pdf

項目主頁：https://www.microsoft.com/en-us/research/project/vasa-1/

下面爲幾段一分鐘視頻演示。

看完演示後，網友表示「每個人和家人朋友約定一個密碼詞」防止詐騙了，因爲AI可以一直監聽手機的麥克風來學習。

從法律角度來看，「視頻證據在未來的價值將大大降低」。

但也有網友指出，細看的話，視頻也存在瑕疵，例如牙齒的大小一直在變化；但如果不知道這個視頻是AI生成的話，不知道還能否分辨出來？

在VASA框架下，首款模型VASA-1不僅能夠產生與音頻完美同步的嘴脣動作，還能夠捕捉大量面部細微差別和自然的頭部動作，有助於感知真實性和生動性。

框架的核心創新點爲基於擴散的整體面部動力學和頭部運動生成模型，以及使用視頻來開發出這種富有表現力和解耦的面部潛空間（disentangled face latent space）。

研究人員還使用了一組全新的指標對模型能力進行評估，結果表明該方法在各個維度上都顯著優於之前的方法，可以提供具有逼真面部和頭部動態的高質量視頻，還支持以高達40 FPS的幀速率實時生成512×512視頻，啓動延遲可忽略不計。

可以說，VASA框架爲模擬人類對話行爲中，使用逼真化身進行實時互動鋪平了道路。

VASA框架

一個好的生成視頻應該具備幾個關鍵點：高保真度、圖像幀的清晰度和真實性、音頻和嘴脣動作之間的精確同步、表情和情感的面部動態，以及自然的頭部姿勢。

模型在生成過程可以接受一組可選的控制信號來指導生成，包括主眼凝視方向、頭部到相機的距離和情緒偏移等。

整體框架

VASA模型並不是直接生成視頻幀，而是在音頻和其他信號的條件下，在潛空間中生成整體的面部動態和頭部運動。

給定運動潛碼後，VASA使用面部編碼器從輸入圖像中提取的外觀和身份特徵作爲輸入，然後生成視頻幀。

研究人員首先構建了一個人臉潛空間，並使用現實生活中的人臉視頻對人臉編碼器和解碼器進行訓練；然後再訓練一個簡單的擴散Transformer對運動分佈進行建模，針對測試期間的音頻和其他條件下，生成運動潛碼。

1. 表情和解耦面部潛空間構建（Expressive and Disentangled Face Latent Space Construction）

給定一組未標註的說話人臉視頻，研究人員的目標是建立一個具有高度解耦和表現力的人臉潛空間。

在主體身份改變的情況下，解耦可以對視頻中的人臉和整體面部行爲進行高效的生成建模，還可以實現對輸出的解耦因子控制，相比之下，現有方法要麼缺乏表現力，要麼缺乏解耦。

另一方面，面部外觀和動態運動的表情可以確保解碼器能夠輸出具有豐富面部細節的高質量視頻，潛生成器能夠捕捉細微的面部動態。

爲了實現這一點，VASA模型建立在3D輔助人臉再現（3D-aid face reenactment）框架的基礎上，與2D特徵圖相比，3D外觀特徵體積可以更好地表徵3D中的外觀細節，其在建模3D頭部和麪部運動方面也很強大。

具體來說，研究人員將面部圖像分解爲規範的3D外觀體積、身份編碼、3D頭部姿勢和麪部動態編碼，每個特徵都由獨立的編碼器從人臉圖像中進行提取，其中外觀體積需要先通過提取姿勢三維體積，再將剛性和非剛性三維扭曲到規範體積來構建得到。

解碼器將上述潛變量作爲輸入，並重建面部圖像。

學習解耦潛空間的核心思想是，通過在視頻中不同圖像之間交換潛變量來構建圖像重建損失，但原版模型中的損失函數無法很好地區分「面部動態」和「頭部姿勢」，也無法識別「身體」和「運動」之間的關聯性。

研究人員額外添加了成對的頭部姿勢和麪部動態來傳遞損失，以改善解耦效果。

爲了提升身份和運動之間的糾纏，損失函數中引入了面部身份相似性損失。

2. 基於擴散Transformer的整體人臉動態生成（Holistic Facial Dynamics Generation with Diffusion Transformer）

給定構建的人臉潛空間和訓練的編碼器，就可以從現實生活中的人臉視頻中提取人臉動態和頭部運動，並訓練生成模型。

最關鍵的是，研究人員考慮了身份不可知的整體面部動態生成（HFDG），學習到的潛編碼代表所有面部運動，如嘴脣運動、（非嘴脣）表情、眼睛凝視和眨眼，與現有方法中「使用交錯迴歸和生成公式對不同因素應用單獨的模型」形成了鮮明的對比。

此外，之前的方法通常基於有限的身份進行訓練，不能對不同人類的廣泛運動模式進行建模，特別是在具有表現力的運動潛空間的情況下。

在這項工作中，研究人員利用音頻條件下的HFDG的擴散模型，在來自大量身份的大量談話人臉視頻上進行訓練，並將Transformer架構應用於序列生成任務。

3. Talking Face視頻生成

在推斷時，給定任意的人臉圖像和音頻片段，首先使用訓練的人臉編碼器提取3D外觀體積和身份編碼；然後提取音頻特徵，將其分割成相同長度的片段，並使用訓練的擴散Transformer以滑動窗口的方式逐個生成頭部和麪部運動序列；最後使用訓練後的解碼器生成最終視頻。

實驗結果

研究人員使用公開的VoxCeleb2數據集，包含大約6000名受試者的談話面部視頻，並重新處理數據集並丟棄「包含多個人物的片段」和低質量的片段。

對於motion latent生成任務，使用embedding尺寸爲512、頭編號爲8的8層Transformer編碼器作爲擴散網絡。

模型在VoxCeleb2和收集的另一個高分辨率談話視頻數據集上進行訓練，該數據集包含約3500個受試者。

定性評估

可視化結果

通過視覺檢查，我們的方法可以生成具有生動面部情緒的高質量視頻幀。此外，它可以產生類似人類的對話行爲，包括在演講和沉思過程中眼睛凝視的偶爾變化，以及眨眼的自然和可變節奏，以及其他細微差別。我們強烈建議讀者在線查看我們的視頻結果，以充分了解我們方法的功能和輸出質量。

生成可控性

在不同控制信號下生成的結果，包括主眼凝視、頭部距離和情緒偏移，生成模型可以很好地解釋這些信號，併產生與這些特定參數密切相關的人臉結果。

解耦face latents

當將相同的運動潛在序列應用於不同的受試者時，方法有效地保持了不同的面部運動和獨特的面部特徵，表明了該方法在解耦身份和運動方面的有效性。

下圖進一步說明了頭部姿勢和麪部動態之間的有效解耦，通過保持一個方面不變並改變另一個方面，得到的圖像忠實地反映了預期的頭部和麪部運動，而不會受到干擾，展示了處理訓練分佈之外的照片和音頻輸入的能力。

模型還可以處理藝術照片、歌唱音頻片段（前兩行）和非英語演講（最後一行），並且這些數據變體不存在於訓練數據集中。

定量評估

下表給出了VoxCeleb2和OneMin-32基準測試的結果。

在這兩個基準測試中，該方法在所有評估指標上都取得了所有方法中最好的結果。

在音頻嘴脣同步分數（SC和SD）方面，該方法遠遠優於其他方法，比真實視頻產生更好的分數，是由於音頻CFG的影響。

從CAPP分數上反映的結果來看，模型生成的姿勢與音頻的匹配效果更一致，尤其是在OneMin-32基準上。

根據∆P，頭部運動也表現出最高的強度，但仍然與真實視頻的強度仍有差距；並且FVD得分明顯低於其他模型，表明該結果具有更高的視頻質量和真實性。

參考資料：

https://www.microsoft.com/en-us/research/project/vasa-1/

微軟「詐騙屆」王牌框架，真到可怕！一張照片+音頻即可生成數字人

相關資訊