DeepFake 新高度：一階運動模型讓“萬物皆可動”

由雷鋒網於 27/04/2020 發表收藏文章

https://static.leiphone.com/uploads/new/images/20200426/5ea55d87b176f.png?imageView2/2/w/740

圖片來源：static.leiphone.com

作者 | 蔣寶尚
編輯 | 叢末

DeepFake一方面被罵作“AI毒瘤”，另一方面在B站上大行其道。最近，這項技術又用在了在線視頻會議身上。

一鍵換臉，身臨其境與馬斯克開會，商討火箭上天大計的項目，也登上Github熱榜。

https://static.leiphone.com/uploads/new/images/20200426/5ea55ba0804d8.gif?imageView2/2/w/740

圖片來源：static.leiphone.com

據稱，這是一位來自俄羅斯的程序員開發的開源“視頻會議阿凡達”軟件Avatarify，背後所用的技術基於名為First Order Motion的核心模型，這個模型可以對視頻中的對象進行動畫處理，並生成視頻序列。First Order Motion模型來自 NeurIPS 2019 論文《First Order Motion Model for Image Animation》，最初的目的是讓“靜態圖片”動起來。如下圖所示：“你動，它也動”。

https://static.leiphone.com/uploads/new/images/20200426/5ea55dd6e75f9.gif?imageView2/2/w/740

圖片來源：static.leiphone.com

根據作者介紹，這個模型可以輕易地讓“權遊”中的人物模仿特朗普進行講話，還可以讓靜態的馬跑起來，另外還可以完成模特的“一鍵換裝”。

https://static.leiphone.com/uploads/new/images/20200426/5ea55df50ac54.gif?imageView2/2/w/740

圖片來源：static.leiphone.com

https://static.leiphone.com/uploads/new/images/20200426/5ea55e09290c4.gif?imageView2/2/w/740

圖片來源：static.leiphone.com

論文解讀：一階動畫模型的來源與主要想法

https://static.leiphone.com/uploads/new/images/20200426/5ea55e27aa0e8.png?imageView2/2/w/740

圖片來源：static.leiphone.com

論文多數作者是來自意大利的特倫託大學，還有一位是 snap 公司的員工，論文已經發表在NeurIPS 2019 上。

https://static.leiphone.com/uploads/new/images/20200426/5ea55e434d761.png?imageView2/2/w/740

圖片來源：static.leiphone.com

First Order Motion模型運作流程

整個模型分為運動估計模塊和圖像生成模塊兩個主要組成部分。在運動估計模塊中，該模型通過自監督學習將目標物體的外觀和運動信息進行分離，並進行特徵表示。而在圖像生成模塊中，模型會對目標運動期間出現的遮擋進行建模，然後從給定的名人圖片中提取外觀信息，結合先前獲得的特徵表示，進行視頻合成。該模型對硬件要求比較高，想實現33幀/秒的視頻效果，需要一張1080ti顯卡，也即需要英偉達10系顯卡中的卡皇加持。

模型細節與方法

一階動畫模型的思想是用一組自學習的關鍵點和局部仿射變換來建立複雜運動模型，目的是為了解決大目標姿勢動態變化的情況下，傳統模型生成質量較差的問題。
另外，作者引入了「遮擋感知生成器」，可以指示源圖像中不可見的物體部分，從而利用上下文推斷這部分內容。再者為了改進局部仿射變換的估計，作者擴展了常用於關鍵點檢測器訓練的等差損耗。最後作者還發布了一個新的高分辨率數據集Thai-Chi-HD，用於評估圖像動畫和視頻生成框架的參考基準。作者根據汽車駕駛視頻中類似物體的運動情況，對源圖像中描繪的物體進行“動畫化”。

沒有直接監督，而是採用了一種自監督策略，該策略的靈感來源於Monkey-Net。

注：Monkey-Net是通過深度運動遷移使任意物體動畫化。

對於訓練，作者使用包含相同對象類別的大量視頻序列集合。模型被訓練來通過組合單幀和學習的視頻中運動的潛在表示來重建訓練視頻。觀察從同一視頻中提取的幀對，模型學習將運動編碼為特定的關鍵點位移和局部仿射變換的組合。
在測試時，將模型應用於源圖像和驅動視頻的每一幀的幀對，並對源對象進行圖像“動畫”。運動估計模塊的作用是估計一個密集的運動場（dense motion field），該密集運動場隨後被用來調整計算特徵圖與物體姿勢。

另外，作者採用的是後向光流，因為它可以有效地實現雙線採樣。運動估計模塊沒有直接進行預測，而是分兩步進行，在第一步中，從稀疏軌跡集近似兩個變換，其中兩個變換是通過使用自監督方式學習關鍵點獲得的。視頻和圖像中的關鍵點由編碼器-解碼器網絡分別預測。

另外，稀疏運動表示非常適合於動畫，因為在測試時，可以使用驅動視頻中的關鍵點軌跡來移動源圖像的關鍵點。使用局部仿射變換的好處是能夠對每個關鍵點附近的運動進行建模，與僅使用關鍵點置換相比，局部仿射變換能夠對更大的變換族（ larger family of transformations）進行建模。
在第二步中，密集運動網絡結合局部近似以獲得密集運動場，除了密集的運動場之外，該網絡還輸出遮擋遮罩，該遮擋遮罩指示視頻中的哪些圖像部分可以通過源圖像的扭曲來重建，以及哪些部分應該內嵌(即從上下文推斷)。

實驗

作者在四個數據集上進行了訓練和測試，結果顯示與所有實驗相比，一階動畫模型能夠渲染分辨率非常高的視頻。 VoxCeleb 數據集、UvA-Nemo 數據集、The BAIR robot pushing dataset、作者自己收集的數據集。

其中，VoxCeleb 是從YouTube的視頻中提取到的包含1251人共超過10萬條語音的數據集。數據集是性別平衡的，其中男性為55%.。説話人涵蓋不同的種族，口音，職業和年齡。UvA-Nemo 是一個由1240個視頻組成的人臉分析數據集。作者使用1116個視頻進行訓練，124個視頻進行評估。
伯克利的這個，包含了由Sawyer機器人手臂在桌子上推着不同物體的視頻收集的視頻。它包括42880個訓練視頻和128個測試視頻。每個視頻都有30幀長，分辨率為256×256。作者自己收集的數據是YouTube上的285個關於太極功夫的視頻，其中252個用於訓練，28個用於測試。在訓練之前對視頻進行了預處理，分割之後訓練集為3049個訓練視頻，285個測試視頻。

https://static.leiphone.com/uploads/new/images/20200426/5ea55ef09fdb7.png?imageView2/2/w/740

圖片來源：static.leiphone.com

太極功夫視頻上的重建比較

https://static.leiphone.com/uploads/new/images/20200426/5ea55f11da311.png?imageView2/2/w/740

圖片來源：static.leiphone.com

世界結果如上圖消融研究所示：對來自太極高清數據集的兩個序列和兩個源圖像上的圖像動畫任務與當前SOTA比較。

與X2Face和Monkey-Ne相比較，作者的一階動畫模型改進了四個不同數據集中的每一個指標，即使在VoxCeleb和Nemo這兩個人臉數據集上，作者的方法也明顯優於X2Face。
在作者的博客上，還做了換臉的實驗，如下所示：