“通過你的目光看世界”,Rokid家庭機器人初見面

36氪 於 19/10/2015 發表 收藏文章

自上世紀 60年 代人類首次提出人工智能(Artificial Intelligence)概念以來,人類已對包含它的生活做了漫無邊際的設想,包括人機間發生戰爭、愛情或共生等各種可能性,而相比之下實際的軟硬件研發如同孑立在一旁,踽踽獨行。50年 過去了,仿生物大腦的人工神經網絡仍是機器學習邁不過的一道坎。

近年來,基於神經網絡的深度學習 (Deep Learning) 在計算機視覺(Computer Vision)和語音識別 (Speech Recognition)、自然語言處理(NLP)應用上發展突出,人們再熟悉不過的GoogleMicrosoftAppleFacebook百度等科技大廠均在這幾個相關特徵信息相對低層的技術領域有所建樹,比如 Siri、Cortana、度祕、Google 無人汽車…

Rokid機器人昨日在北京露了個面,這是一家由前阿里巴巴 M 工作室領頭人 Misa 創建的公司,他將基於上述幾種技術的Rokid定位為家庭機器人。不同於常人對機器人的想象,Rokid 不能動,而是形如一個立體水滴落在冰壺狀底座的靜態硬件。其 “水滴” 前臉是一個高曲率非球面殼,用來呈現內置 DLP 投影和 LED 陣列發出的圖像;底座上半部與前臉材質相同,同樣可以顯像,下半部是一個音箱;產品頂端配有一個 1200 萬像素的攝像頭;還內置了麥克風與環境光線、温度傳感器。據公司發言人向 36 氪透露,Rokid 選用的是三星定製 8 核芯片,而那個高透光度曲面外殼則由一家日本供應商提供,沒有公佈具體信息,但宣稱該材質全球只有 3 家公司能夠生產。


Rokid 採取的是語音交互模式,在靜置狀態下顯示 3D 星軌動畫,當你向它説一聲 “Hi,若琪” 時,它會給予語音迴應並在底座上層指向你聲音的方向亮光,以及在顯像界面彈出一個圓圈表示開始互動。公司聯合創始人兼 CEO Dan 現場演示了部分功能,包括播報天氣、變換燈光顏色、控制掃地機器人和窗簾開關、唱歌、播放周杰倫的音樂等。Dan 的中文略帶加拿大口音,且距離 Rokid 有兩米左右,經常出現無反饋或聽不懂的情況,我在靠近它説話時反饋準確率會高一些,不過公司也承認了其語音識別技術尚未成熟,還不足以正式面向用户。

此外,Rokid 還基於攝像頭做了手勢喚醒功能(弱光環境下不太靈敏),正在研發調試遠場識別和聲紋識別、人臉識別,前者使用户遠距離也能與 Rokid 語音交互,而後兩者則可以通過聲音、圖像辨別家庭成員,然後提供基於對該用户的深度學習提供服務。

在單獨採訪 Dan 時,他講了各種 Rokid 可能承載的使用場景,在這位十分擅長演講的前外企高管即將把 Rokid 描繪成《星際穿越》中的 Tars 和《超能陸戰隊》中的大白一樣令人心馳神往前,我竭力抑制住瞬間迸發的腎上腺素並問道:“基於現有技術的不成熟,如果想盡早投入消費市場,是否應先用一些容易實現的功能引導用户?”。Dan 笑了笑,説團隊最初想過把它宣傳成一個智能音箱,但最終還是決定定位寬泛一些——Rokid 是營造温馨氣氛的家庭成員。
基於現有技術,我認為 Rokid 有四大類應用價值:

  • 交談與娛樂:Rokid 使用的是 tts 聲音技術,語音輸出由字、音合成而來,Dan 表示希望用眾包的方式讓用户制定 Rokid 對問題的回答,還可以開發圖形化工具,他管這叫 Co-design。目前已經開始通過微信公眾號徵集 Rokid 唱歌的曲目了。而如同 Siri 和 Cortana 一樣,Rokid 可以識別上下文、會對無法識別的語義做取巧式的回答,讓用户樂於調戲它,不過要實現真正的自由交談還很遠。
  • 內容消費:Rokid 已經接入了蝦米音樂和墨跡天氣的內容,未來接入新聞、電台、視頻等內容也不難。
  • 功能性服務:Rokid 可以通過與 Broadlink 合作控制智能家居設備,也可以從幫用户制定運動計劃並幫忙計時做起,加入功能性服務。
  • 消費型服務:出門前打輛 Uber、推薦一個餐館、訂一間酒店,理論上來講只要開放 SDK 給第三方應用(Rokid 具備 Android 架構),任何服務都可以接入進來。

如果這樣來看,Rokid 更像是由智能手機轉移到另一硬件的 Siri,不過其遠場識別的特性使得用户可以在家中任意地點使用它,並且解放雙手。但別忘了我們討論的是一個人工智能機器人,如果像上文提到的 Co-design 一樣,只是通過預設算法和代碼輸出特定結果,那充其量只能算是基於數據搜索的智能推薦算法。真的要讓機器越來越了解你的內心,需要通過深度學習模型用已有的數據分析出編程無法做到的預測。而我們在《在找機器人女友前,你還需要看下這篇最強自然語言處理科普貼》這篇文章中提過,從基礎的語音識別、語義分析到輸出經 “思考” 的主動推薦,目前的技術差的還很遠。深度學習是 Misa 的主攻方向,也許下一次我們可以聽到他專門講解此事。

Dan 告訴 36 氪,他希望最基礎的語音識別做到 90%準確率再發布產品,而這也是目前最重要的工作。此外他還透露,鑑於那兩塊既要透光度又要解析度的曲面外殼,還有一些細微處的用料調整,雖然模具已經定下,但產品離真正量產還有距離。

Dan 認為 Rokid 在面市之路上只走完了 50%的進度。這位矽谷產品經理出身的前NokiaSamsung中國區副總裁表示自己不會干涉產品設計,而是完全扁平的交給員工主導。Rokid 的 50 餘人團隊名聲很響,除 Misa 和 Dan 之外還有前金山、好孩子、阿里的 CFO Eric,以及由中科院教授、浙大副教授、前 Apple 生產負責人組成的顧問團。公司曾拿到華登國際、IDG、線性資本、元璟資本的投資,具體金額未曾透露。

回到見面會現場,當 Dan 數次向 Rokid 傳達指令終獲迴應時,掌聲不絕於耳,一名躑躅在門外的技術人員難掩激動之情,把攥了許久的拳抬至胸前又奮力甩下。在幾十年後面對我家的機器人思考人生時,也許我會憶起這份驕傲。

附 36 氪現場試用 Rokid 實拍視頻(環境略微嘈雜,正好考驗其語音識別能力):


歡迎對人工智能、深度學習領域感興趣的技術大牛指教,請加微信 dusk_rain

原創文章,作者:暮雨

“看完這篇還不夠?如果你也在創業,並且希望自己的項目被報道,請戳這裏告訴我們!”


資料來源:36Kr

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→