人工智能要想理解真實世界發生的事,可以先從讀取視頻中的信息開始。Google、Facebook等大公司都在進行圖像和語音的分析研究。Google卷積神經網絡(Convolutional Neural Networks,CNNs)技術的兩位軟件工程師在博客上公佈了一些研究成果,其中很重要的一個突破是,能夠初步辨識出動態視頻的內容。
他們認為,由於動態視頻增加了時間這個維度,運動軌跡等信息豐富,這方面視頻反而比圖片更易識別和分類。但是,對視頻而言,不僅要分辨出圖像中的物體或人,還要搞清楚他們在幹什麼。如果想要完整地分析一整段視頻(如一場足球賽),從建模角度來説是個挑戰,因為其中很多參數需要調試,計算量大。
為了解決這些問題,他們會先提取圖像中的大致框架,如下圖所示,處理這種相對簡單的數據可以降低計算的複雜性。為了防止誤差過大,他們以光流法(Optical Flow)的形式觀察,也就是相對於觀察者的運動所造成的觀測目標、表面或邊緣的運動來判斷,如下圖所示。
判斷效果可以看看下面這段視頻,雖然還比較原始,但是左上角的幾行信息就是AI判斷出的不同運動的概率,隨着視頻的推進,分析的概率也在變化。所以視頻末尾指出,每一幀出現的概率並不那麼準確,應以視頻結束後系統的判斷為準。這項研究學術論文已發表,感興趣的話,可以移步這裏。
資料來源:36Kr
請按此登錄後留言。未成為會員? 立即註冊