Google 人工智能技術新突破：可初步識別視頻中的人在做什麼運動

由 36氪於 09/04/2015 發表收藏文章

http://a.36krcnd.com/nil_class/f816ef95-8478-4103-bfc7-e6d465da96f8.jpg

圖片來源：a.36krcnd.com

人工智能要想理解真實世界發生的事，可以先從讀取視頻中的信息開始。Google、Facebook等大公司都在進行圖像和語音的分析研究。Google卷積神經網絡（Convolutional Neural Networks，CNNs）技術的兩位軟件工程師在博客上公佈了一些研究成果，其中很重要的一個突破是，能夠初步辨識出動態視頻的內容。
他們認為，由於動態視頻增加了時間這個維度，運動軌跡等信息豐富，這方面視頻反而比圖片更易識別和分類。但是，對視頻而言，不僅要分辨出圖像中的物體或人，還要搞清楚他們在幹什麼。如果想要完整地分析一整段視頻（如一場足球賽），從建模角度來説是個挑戰，因為其中很多參數需要調試，計算量大。

為了解決這些問題，他們會先提取圖像中的大致框架，如下圖所示，處理這種相對簡單的數據可以降低計算的複雜性。為了防止誤差過大，他們以光流法（Optical Flow）的形式觀察，也就是相對於觀察者的運動所造成的觀測目標、表面或邊緣的運動來判斷，如下圖所示。