近年來,計算機視覺技術發展迅速,但它往往趨於應用於某種特定的應用程序中,比如Facebook自動標記出照片中的朋友,Google會自動顯示用户搜索類似圖像。
但我們對計算機視覺技術真正的期望是,一台經過訓練的相機,能夠回答類似:“孩子放學回家了嗎?”“公司有開放的停車場嗎?”“奶茶店有多少人正在排隊?”等簡單的問題。
而現在,計算機還沒有發達到準確理解並回答這些問題。這也是Zensors研究人員想要改變的東西。卡內基梅隆大學開發了一種項目,旨在運用人類的智慧和人工智能的巧妙結合,使得使計算機視覺更加智能。然而目前這一想法僅在概念驗證階段,它需要一個令人信服的解決方法。
人工的智能
假設你是一個奶茶店的老闆,想要知道一天之內有多少顧客排隊購買。那Zensors就派上用場了:只要將一部舊的智能手機安裝在牆上,註冊賬號後,向Zensors APP發出指令,讓它查詢有多少顧客正在排隊。接下來, Zensors會把用户指令傳達給卡耐基梅隆大學的研究人員。項目的“眾包”工人收到智能手機傳送過來的圖片,並數出照片中的人數並附上標記(這步需要收取一筆小額費用)。
處理後的圖像被同時用於機器算法的學習,使機器學會自主數清排隊等待的顧客人數。當人工智能訓練到一定程度時,即可完全接管這項任務。人工與機器的切換無縫發生;用户甚至感覺不到差別,而他們所能體會到的是,在設置相機的幾分鐘中內,Zensors就會做出回答,給出一個確切的數字。
這讓我們想起了2011年就出現過的聯想樂助理的例子。這是一個日程應用,你對着手機説“兩天之後早上十點飛北京”,它就能自動幫你安排日程,識別相當準確。但真正起作用的並不是什麼人工智能算法,而是另一端有客服人員“人工”聽到語音後,再安排行程。
人與機器,誰服務誰?
該方法解決了計算機視覺存在的最大問題:缺乏靈活性。計算機視覺已經取得了巨大的進步,但很多都僅應用於非常具體的情況。從技術上説, 經過人工智能訓練的計算機視覺系統非常不可靠,往往無法處理陌生的環境或行為。Zensors會僱傭適量的人力使計算機熟悉某個特定的場景,他們認為這是將計算機視覺帶入大眾生活中的一種好方法。
這種方式比重新構建解決方案便捷地多。研究人員詢問了一些程序員,開發一個常規的可以測定公共汽車是否已到達車站的計算機視覺系統的成本是多少,結論是平均3000美元。Zensors用自己的方法開發能解決類似問題的系統,如“停車場有多少輛車? 水槽有多髒?洗碗機的門開着嗎?”。平均而言,只要每天讓一部分人幫助處理圖像,一週之內該算法就可以自主回答類似的複雜問題。按最低工資來算,訓練一個傳感器的成本最便宜是5美元,最貴也僅為40美元。
但這種方法似乎將人類置於機器之下,它們做不了的工作讓人類來完成,而我們的初衷卻是人類不願做的就讓機器來完成。這固然也是人工智能還不成熟時的權宜之計。
Zensors團隊目前仍在着手構建該平台。但Zensors真正的野心遠不限於回答用户提出的問題。該模型還可以把類似API的結構應用於視頻中,並供其他應用程序使用。不同於iPhone中的運動傳感器,他們可以將獲得的數據提供給如Nike和MyFitnessPal的第三方應用,目前仍沒有API可以從視頻中提取數據。使用Zensors,店主可以觀察每天排隊人數的變化,還可以使用這些數據喚醒其他操作,比如説,當排隊等待的人數超過6人時,自動開放第二個收銀窗口。
“今天我們普遍將相機圖像認為是一種沒有多少計算意義的模擬信號。但其傳遞的信息是清晰的,” Wiese説。目前來説,計算機算法可能無法自助提取信息,但只要給予它們一些時間與人類的輔助,相信這也不是遙遠的願景。
via wired
資料來源:雷鋒網
作者/編輯:李旭旭
請按此登錄後留言。未成為會員? 立即註冊