三星新技術：讓蒙娜麗莎開口「説話」精選

由愛範兒於 28/05/2019 發表收藏文章

圖片來源：

你有沒有想過，有一天蒙娜麗莎不只會神祕微笑，還會對你挑眉眨眼、娓娓而談？

https://s3.ifanr.com/wp-content/uploads/2019/05/909.gif

圖片來源：s3.ifanr.com

不止蒙娜麗莎，瑪麗蓮夢露也「活」過來了，紅脣一張就開始説話，眼角眉梢風情萬種。

https://s3.ifanr.com/wp-content/uploads/2019/05/78.gif

圖片來源：s3.ifanr.com

還有隻在物理書裏面看到過的愛因斯坦，你現在甚至能感受到科學道理正從他口中傾瀉而出……

https://s3.ifanr.com/wp-content/uploads/2019/05/566.gif

圖片來源：s3.ifanr.com

現在，你可能會以為這是什麼特效視頻裏截取的畫面，但事實上，這些人物的動態視頻，都僅源於旁邊那一張照片。
來自三星 AI 中心和莫斯科 Skolkovo 科學技術研究所的研究人員，成功地開發出了這個「人像照變動態表情包」的 AI 系統，並於 5 月 20 日在 ArXiv.org 網站上公佈了他們的研究成果。

https://s3.ifanr.com/wp-content/uploads/2019/05/77778.png!720

圖片來源：s3.ifanr.com

前陣子鬧得沸沸揚揚的「色情換臉」，需要大量人物的圖像信息再加原生視頻，才能生產出一個新的合成視頻，而這次三星 AI 只需基於一張肖像照片或一張畫像，就能讓裏面人物的面部表情都動得栩栩如生。
雖然並非完美無瑕，但足以讓人信以為真。

https://s3.ifanr.com/wp-content/uploads/2019/05/666666.png!720

圖片來源：s3.ifanr.com

製作這個視頻並不容易。

因為人類的視覺思維對臉部細節極其敏感，因此每個微小部分，包括嘴巴的弧度、頭髮的輪廓、眨眼的速度都很難忽視。所以這套人工智能系統經過了一段漫長的訓練時光。
研究人員從 YouTube 收集了 7000 張名人照片，提取其「標誌性」的面部特徵，然後系統通過觀看大量人類説話的面孔和表情豐富的視頻進行學習。

https://s3.ifanr.com/wp-content/uploads/2019/05/a71ea8d3fd1f41348aa741f262354aced0c85e5c.jpeg!720

圖片來源：s3.ifanr.com

▲「讓照片動起來」的學習架構圖

之後，人工智能系統就能將學到的內容應用到單張照片或多張照片上，高效地找到與系統學習的臉部相對應的部分，然後因人而異地針對新面部裏各個的關鍵點，特別是眼睛、鼻子和嘴巴進行調整，最後達到最自然的動態效果。
當可以使用的照片越多，視頻就會越加逼真，32 個圖像，就足以讓視頻以假亂真。

https://s3.ifanr.com/wp-content/uploads/2019/05/33-1.gif

圖片來源：s3.ifanr.com

雖然仔細看，人物邊緣的地方依然有模糊的部分，不能識別的地方也只能用背景畫面粗糙填充，瑪麗蓮夢露的視頻還少了那顆標誌性的痣。而且，視頻也沒有聲音，動態只能呈現在面部，一張一合的嘴角就像一個練習生在唱 Rap，但它依然是一個顛覆式的創新，簡單點説，實現了一鍵把 JPG 變 GIF。
研究人員表示，未來，這個 AI 系統將會被廣泛應用在視頻、遊戲、電視、電影，以及特效行業中，估計現在，它就已經被 B 站上的鬼畜藝術家盯上了。而單張或少量照片就能完成動態人像的速度和效率，也讓該模型更利於推廣。

https://s3.ifanr.com/wp-content/uploads/2019/05/21-4.png!720

圖片來源：s3.ifanr.com

不過同時，這也意味着很快會有圖謀不軌之人利用臨時拼湊的工具來模仿它，進行羣眾誤導或虛假詐騙，還有可能把一個人的人像照片製作出不可描述的動態表情，放在不可描述的身體上做不可描述的事情。
儘管它還不足以引起 Deepfakes「色情換臉」那樣的風波，但它比起「色情換臉」使用起來更簡易便捷，在人人都暴露無遺的互聯網時代，擔憂也並非沒有必要，只是現在還為時尚早。