雷鋒網(搜索“雷鋒網”公眾號關注)按:本文作者為Slyvia,文章詳細的分析了1)機器和人類在人臉識別方面的不同點;2)人機大戰結果的原因分析。
繼「圍棋」人機大戰——以李世石為代表的人類,輸給了阿爾法狗代表的計算機後,人類又發起了「人臉識別」之人機大戰。這一次是誕生於杭州的人臉識別機器人螞可,對戰「鬼才之眼」王昱珩。
王昱珩是誰?
15 年「最強大腦」中,在同質同量同源的 520 杯水中,他成功指出評審選中的那杯,並精準説出水杯旋轉了 15 度,中間經人手,從此,「水哥」一戰成名。
這次,對上「萬變不離其宗」的網紅臉,人類可以一雪前恥麼?
結果揭露前,先了解計算機「看人」的套路。
人眼和計算機,都喜歡瞄「點」。只不過,人眼在辨別物體時,往往通過不同點來判斷。而計算機則相反,它找的是相同點。
通過攝像頭「觀察」目標,計算機將拍攝到的物體,以圖片形式傳給計算機,這就是圖像識別過程。淘寶的圖片搜索、百度的圖片識別功能,都屬於這類應用。
在識別中時,計算機會找一些「與眾不同」的點,來和「腦海」中的圖片進行匹配。這些「鶴立雞羣」的點,通常被稱為「角點」或「關鍵點」。這些點在圖像中具有一定特徵,如局部最大或最小灰度(即圖像亮度)、某些梯度特徵(描述圖像灰度變化情況的量)。
比如人臉上的一顆痣,在計算機識別時就會被當成參考點。那麼計算機是如何找到這些「角點」的?
角點圖
計算機在查找某個像素點時,是遵行逐個查詢的規則。為了判斷一個點是否為「角點」,會選取一個大小合適的窗口(比如 3*3 的窗口),讓窗口中心遍歷(即依次訪問)整個圖像像素,同時,判定中心點與它的周圍點是否有明顯不同。
因此,當窗口在平滑區域(圖 a),窗口在各方向上移動時,圖中三個窗口內部的圖像無變化。當窗口在沿邊緣方向上移動時(如圖 b),三個窗口內圖像也是不變的。當窗口在「角點」處時(如圖 c),窗口無論朝哪個方向移動,三個窗口內部圖像均不一樣,因此判斷該點為「角點」。
不同的「角點」檢測算法使用地窗口不一樣,採用圓形窗口檢測「角點」的 FAST,和採用 16*16 採樣窗口的 SIFT 算子中,是圖像特徵點檢測的兩大算法。
「配對」又是怎麼一回事?
找到特徵點後,對它們進行描述後,才能開始圖像匹配。描述的大前提是,我們需要利用特徵點周圍像素的梯度方向分佈特性,為每個關鍵點指定方向。
比如在 SIFT 算子中,將採樣點與特徵點的相對方向,通過高斯加權後得到一個 4*4*8 的 128 維特徵描述子。
一系列加工後,就成了上圖這個「鬼樣子」
有了特徵點描述子,就可以和模板圖的特徵點描述子進行比較,得分最高的就是最佳匹配點。然後對所有特徵點進行遍歷。計算機的「人臉識別」就是基於以上理論。同時,它還會進行一些縱向比較,比如通過圖片上五官的分佈距離,來進行比較。
所以,結果是?
三局兩勝,「水哥」代表的咱人類勝利了~ 螞可能勝一局,説明計算機在圖像識別的未來可期,但最終失敗,也説明還存在一些問題。
勝敗分析這次比賽挑選的識別對象——網紅臉,看上去都是從一個模子裏刻出來的,無疑增加了比賽的難度。
面對這些千篇一律的網紅臉,螞可在識別近照時尚可,但到了童年照就有點吃力。
螞可在識別人臉時,部分程序是通過五官之間的距離來判斷的。但是,人在幼年時五官比較居中,隨着年齡增長會分散開些,「長開了」。更不用説,有些網紅還進行了「微整」,連親媽都認不出了,何況是螞可。
第三局失敗情有可原。但為什麼螞可還能贏第一局?因為快。
如果你仔細看上文視頻,可能對這句話還有印象:計算機識別時,先將照片劃分為四個區域,再分成幾百個關鍵點。
這是加快圖像識別的關鍵一步,在所有的圖像識別中,幾乎都採用了這種方式。圖像識別中有個專業名詞來形容,稱為「圖像金字塔」。
圖像金字塔
圖像金字塔最初用於機器視覺和圖像壓縮,一幅圖像的金字塔是一系列以金字塔形狀排列的分辨率逐步降低的圖像集合。底部是待處理圖像的高分辨率表示(上圖 G0),而頂部是低分辨率的近似(上圖 G3)。當向金字塔的上層移動時,尺寸和分辨率就降低,識別速度得以提高。(注:分辨率越高,圖片越大越清晰)
同時,人在比賽中會受到外界干擾,心理作用比較大,但計算機沒有。所以「水哥」在開始失利,也有非專業因素在內。
但是,後面螞可連輸兩局,還有更深層次的原因。
比賽中,兩位選手都需要通過自身移動來識別圖像,這對螞可是很不利的。因為攝像機移動時圖像識別會不穩定,就像我們坐在車中看窗外景色,隨着車速增加,景色越模糊。
同時,現場燈光組給力,反光很強,也會影響螞可的識別。
生活中,當我們背光看屏幕,由於反射光太強會導致看不清屏幕,這時我們會拉上窗簾或用手遮光,來降低光的反射。而計算機就得對現實環境亮度進行實時檢測,根據檢測結果對圖像亮度閾值進行調整後,再進行比較。
目前,機器對光的調節作用還趕不上人眼的調節,又碰上「水哥」,只能甘拜下風了!不過,即便這次螞可敗給了「水哥」,但「水哥」只有一個,螞可還有很多。下一次,我們還會贏麼?
雷鋒網注:本文由ARC增強現實(微信ID:arinchina)授權雷鋒網發佈,如需轉載請聯繫原作者,並註明作者和出處,不得刪減內容。
更多文章:1. 解密:智能美粧和動效自拍背後的技術
2. 解密:面部特徵點檢測的關鍵技術
3. 人臉檢測發展:從VJ到深度學習(上)
4. 人臉檢測發展:從VJ到深度學習(下)
5. 深度學習在人臉識別中的應用——優圖祖母模型的“進化”
資料來源:雷鋒網
作者/編輯:粉紅熊熊
繼「圍棋」人機大戰——以李世石為代表的人類,輸給了阿爾法狗代表的計算機後,人類又發起了「人臉識別」之人機大戰。這一次是誕生於杭州的人臉識別機器人螞可,對戰「鬼才之眼」王昱珩。
王昱珩是誰?
15 年「最強大腦」中,在同質同量同源的 520 杯水中,他成功指出評審選中的那杯,並精準説出水杯旋轉了 15 度,中間經人手,從此,「水哥」一戰成名。
這次,對上「萬變不離其宗」的網紅臉,人類可以一雪前恥麼?
結果揭露前,先了解計算機「看人」的套路。
人眼和計算機,都喜歡瞄「點」。只不過,人眼在辨別物體時,往往通過不同點來判斷。而計算機則相反,它找的是相同點。
通過攝像頭「觀察」目標,計算機將拍攝到的物體,以圖片形式傳給計算機,這就是圖像識別過程。淘寶的圖片搜索、百度的圖片識別功能,都屬於這類應用。
在識別中時,計算機會找一些「與眾不同」的點,來和「腦海」中的圖片進行匹配。這些「鶴立雞羣」的點,通常被稱為「角點」或「關鍵點」。這些點在圖像中具有一定特徵,如局部最大或最小灰度(即圖像亮度)、某些梯度特徵(描述圖像灰度變化情況的量)。
比如人臉上的一顆痣,在計算機識別時就會被當成參考點。那麼計算機是如何找到這些「角點」的?
角點圖
計算機在查找某個像素點時,是遵行逐個查詢的規則。為了判斷一個點是否為「角點」,會選取一個大小合適的窗口(比如 3*3 的窗口),讓窗口中心遍歷(即依次訪問)整個圖像像素,同時,判定中心點與它的周圍點是否有明顯不同。
因此,當窗口在平滑區域(圖 a),窗口在各方向上移動時,圖中三個窗口內部的圖像無變化。當窗口在沿邊緣方向上移動時(如圖 b),三個窗口內圖像也是不變的。當窗口在「角點」處時(如圖 c),窗口無論朝哪個方向移動,三個窗口內部圖像均不一樣,因此判斷該點為「角點」。
不同的「角點」檢測算法使用地窗口不一樣,採用圓形窗口檢測「角點」的 FAST,和採用 16*16 採樣窗口的 SIFT 算子中,是圖像特徵點檢測的兩大算法。
「配對」又是怎麼一回事?
找到特徵點後,對它們進行描述後,才能開始圖像匹配。描述的大前提是,我們需要利用特徵點周圍像素的梯度方向分佈特性,為每個關鍵點指定方向。
比如在 SIFT 算子中,將採樣點與特徵點的相對方向,通過高斯加權後得到一個 4*4*8 的 128 維特徵描述子。
一系列加工後,就成了上圖這個「鬼樣子」
有了特徵點描述子,就可以和模板圖的特徵點描述子進行比較,得分最高的就是最佳匹配點。然後對所有特徵點進行遍歷。計算機的「人臉識別」就是基於以上理論。同時,它還會進行一些縱向比較,比如通過圖片上五官的分佈距離,來進行比較。
所以,結果是?
引用第一局,從 150 張網紅照片中找出 3 人,螞可勝
第二局,從 300 張網紅照片中找出 3 人,「水哥」勝
第三局,從 80 張網紅童年照中找出 2 人,「水哥」勝
三局兩勝,「水哥」代表的咱人類勝利了~ 螞可能勝一局,説明計算機在圖像識別的未來可期,但最終失敗,也説明還存在一些問題。
勝敗分析這次比賽挑選的識別對象——網紅臉,看上去都是從一個模子裏刻出來的,無疑增加了比賽的難度。
面對這些千篇一律的網紅臉,螞可在識別近照時尚可,但到了童年照就有點吃力。
螞可在識別人臉時,部分程序是通過五官之間的距離來判斷的。但是,人在幼年時五官比較居中,隨着年齡增長會分散開些,「長開了」。更不用説,有些網紅還進行了「微整」,連親媽都認不出了,何況是螞可。
第三局失敗情有可原。但為什麼螞可還能贏第一局?因為快。
如果你仔細看上文視頻,可能對這句話還有印象:計算機識別時,先將照片劃分為四個區域,再分成幾百個關鍵點。
這是加快圖像識別的關鍵一步,在所有的圖像識別中,幾乎都採用了這種方式。圖像識別中有個專業名詞來形容,稱為「圖像金字塔」。
圖像金字塔
圖像金字塔最初用於機器視覺和圖像壓縮,一幅圖像的金字塔是一系列以金字塔形狀排列的分辨率逐步降低的圖像集合。底部是待處理圖像的高分辨率表示(上圖 G0),而頂部是低分辨率的近似(上圖 G3)。當向金字塔的上層移動時,尺寸和分辨率就降低,識別速度得以提高。(注:分辨率越高,圖片越大越清晰)
同時,人在比賽中會受到外界干擾,心理作用比較大,但計算機沒有。所以「水哥」在開始失利,也有非專業因素在內。
但是,後面螞可連輸兩局,還有更深層次的原因。
比賽中,兩位選手都需要通過自身移動來識別圖像,這對螞可是很不利的。因為攝像機移動時圖像識別會不穩定,就像我們坐在車中看窗外景色,隨着車速增加,景色越模糊。
同時,現場燈光組給力,反光很強,也會影響螞可的識別。
生活中,當我們背光看屏幕,由於反射光太強會導致看不清屏幕,這時我們會拉上窗簾或用手遮光,來降低光的反射。而計算機就得對現實環境亮度進行實時檢測,根據檢測結果對圖像亮度閾值進行調整後,再進行比較。
目前,機器對光的調節作用還趕不上人眼的調節,又碰上「水哥」,只能甘拜下風了!不過,即便這次螞可敗給了「水哥」,但「水哥」只有一個,螞可還有很多。下一次,我們還會贏麼?
雷鋒網注:本文由ARC增強現實(微信ID:arinchina)授權雷鋒網發佈,如需轉載請聯繫原作者,並註明作者和出處,不得刪減內容。
更多文章:1. 解密:智能美粧和動效自拍背後的技術
2. 解密:面部特徵點檢測的關鍵技術
3. 人臉檢測發展:從VJ到深度學習(上)
4. 人臉檢測發展:從VJ到深度學習(下)
5. 深度學習在人臉識別中的應用——優圖祖母模型的“進化”
資料來源:雷鋒網
作者/編輯:粉紅熊熊
請按此登錄後留言。未成為會員? 立即註冊