重磅:蘋果人工智能最完整解密,iBrain早已無處不在

雷鋒網 於 25/08/2016 發表 收藏文章

編者按:眼下最受關注的技術非人工智能莫屬,但全球市值最高的公司蘋果似乎對此無動於衷,被認為在人工智能領域嚴重落後,除了語音助手Siri,似乎沒有更多作為。但真實情況或許與外界猜測的完全不同,Backchannel主編Steven Levy近日走訪了蘋果,發現這家公司其實先於業界使用了時髦的深度學習技術,並將其用在了除Siri外的方方面面。閲讀本文你可以迅速了解蘋果哪些產品已被機器學習入侵,為何它能祕密研發新技術多年,機器學習給其文化和原則帶來了怎樣的挑戰,它又是如何與主流業界“對着幹”……

本文編譯自backchannel,由雷鋒網作者張馳,家欣,Jasper共同完成。



2014年7月30日,Siri迎來了一次腦部移植。

再三年前,蘋果是第一家將智能助理整合進其操作系統的主流公司。而Siri則是蘋果對一個收購而來的獨立應用的改進,它還在2010年吞下了開發團隊。對於Siri,最初的評價令人欣喜,但後來的幾個月到幾年中,用户對它的缺點越來越不耐煩。它常常錯誤理解指令,怎麼調整也沒沅改進。

所以在上面提到的那個日期,蘋果將Siri的語音識別移植到了基於神經網絡的系統上。這一服務首先面向美國用户,並在8月15日推向全球。一些早期技術仍有用,包括隱馬爾可夫模型,但現在系統使用的是機器學習技術,包括DNN(深度神經網絡),卷積神經網絡,長短期記憶單位,封閉複發性單位(gated recurrent units),以及n-grams等。用户升級後,Siri雖然看起來還是一樣,但經過了深度學習的加強。

與其它底層改進一樣,由於不願向競爭者暴露自己,蘋果沒有公佈Siri的進展。如果用户注意到了什麼,也只是它犯的錯變少了。蘋果也表示,準確度的改善令人震驚。


Eddy Cue

蘋果互聯網軟件及服務部高級副總裁Eddy Cue表示,“這次改進的效果如此明顯,以至於進行了重新測試,確保沒人算錯小數點。”

Siri轉變的故事會讓人工智能領域的人皺起眉頭,不是因為神經網絡對系統的提升,而是因為蘋果對技術如此熟練又如此低調。直到最近,雖然蘋果在AI領域加大了招聘力度,也做出了一些高調的收購,但外界還是認為它在最為激烈的AI競爭中稍顯落後。由於蘋果一直守口如瓶,連AI行家也不知道它在機器學習上有何作為。在斯坦福教授人工智能歷史一課的Jerry Kaplan表示,“蘋果不屬於社區的一分子,就像是AI領域的NSA(美國國家安全局)”。一般認為,如果蘋果的努力與Google和Facebook一樣認真,應該會被外界所知。

艾倫AI研究所的Oren Etzioni表示,“Google、Facebook和微軟有着頂尖的機器學習人才。蘋果確實聘用了一些人,但機器學習的五大領袖中有誰為蘋果工作?蘋果有語音識別技術,但除此之外機器學習還能幫什麼忙呢。”



然而,就在本月初,蘋果祕密地展示了機器學習在自家產品上的應用。但沒有展示給Oren Etzioni看,而是展示給了我。當天,我的大部分時間都待在了蘋果庫比提諾飛船總部大樓裏,在蘋果高管的陪同下,感受了蘋果產品在人工智能與機器學習上的緊密結合。(高管包括Eddy Cue,副總裁兼市場營銷主管Phil Schiller,以及軟件主管兼高級副總裁Craig Federighi)同時在場的還有負責開發Siri的專家。當我們都就坐以後,他們給我看了寫滿了兩頁紙的機器學習應用,一些是已經投入使用的產品或服務,一些是還在討論中的項目。

如果你是一名iPhone用户,大概已經受益於機器學習所帶來的用户體驗的提升。但與直覺相反,機器學習並不僅僅應用於Siri上。識別陌生來電,在解鎖後列出你最常使用的應用,或者在提醒事項中標記了一個約會(但你並沒有將之放入日程表中),以及自動顯示附近標記的酒店,這些在蘋果全面擁抱機器學習及神經網絡後,都能做得更加盡善盡美。

對,這就是傳説中的“Apple Brain”,已經內置於你的iPhone中。

用到了神經網絡的面部識別

“機器學習”,一名專家説,“現在在蘋果的產品及服務裏無處不在”。Apple store使用深度學習辨別騙保行為,公測版操作系統收到的反饋也會使用人工智能篩選一遍,找出有用的反饋報告。還有蘋果的News應用,採用機器學習挑選出你可能感興趣的新聞源。Apple Watch也利用到了機器學習,檢測用户在鍛鍊狀態還是僅僅在閒逛。還有就是眾所周知的相機人臉識別,iPhone早已搭載這項技術。在Wi-Fi信號較弱的情況下,出於電量考慮,iOS還會建議你使用蜂窩網絡。它甚至能分辨出拍攝視頻的好壞,並在點擊一個按鈕之後,快速把一組相關的視頻剪輯到一起。當然,這些蘋果的競爭對手們做的也不賴,但高管們強調,蘋果是唯一一家在用户隱私及用户體驗上取得平衡的公司。當然,要在 iOS 設備上達到這一標準,也只有蘋果能做到。

對蘋果來説,人工智能並非新玩意兒。早在上世紀90年代,蘋果推出牛頓(Newton)平板時,配套的觸控筆就採用了一定程度的人工智能,用以識別用户輸入的字符。這一研究成果目前還在為蘋果帝國發光發熱,即Apple Watch上面的中文字符識別系統。這一系統允許用户輸入極為潦草的筆劃仍能精準識別。(這些功能數十年以來都是由統一的機器學習團隊在研發)當然,早期的機器學習極為原始,現在大行其道的深度學習在當時仍處於襁褓之中。現在人工智能與機器學習成為人必言之的顯學,蘋果在這方面一直飽受批評。近幾周,Tim Cook終於發話,表示蘋果並非在人工智能方面沒有着力,僅僅是宣傳較少(按:詳情見雷鋒網(搜索“雷鋒網”公眾號關注)報道)。現在,高管們終於已改悶聲做事的做法,將蘋果在人工智能方面的成果公之於眾。


機器學習用於Apple Watch的健康應用

“蘋果在過去的五年裏增長迅猛”,Phil Schiller説,“我們的產品的改進速度也非常快,A系列的處理芯片每年都有不小的性能突破,這使得我們擁有更加充裕的性能,將越來越多的機器學習技術應用到終端產品上。機器學習有不少好東西,而我們也有能力用好它”。

即使蘋果擁抱機器學習的熱情絲毫不亞於任何矽谷科技公司,但他們對於機器學習的使用仍是剋制的。這幫庫比提諾的天才們並不認為機器學習是解決一切問題的靈丹妙藥。人工智能是未來的交互方式,但觸摸屏幕,平板電腦,面向對象編程在特定時期一樣發揮了相同的作用。在蘋果看來,機器學習並非其他公司所説,是人機交互的終極答案。“人工智能與以往改變人機交互的各種媒介並無本質區別”,Eddy Cue 説。蘋果對於機器是否將取代人類這樣老生常談的討論也並無興趣。與預期相同,蘋果並沒有承認造車計劃,也沒有談及自制電視劇的傳言,但蘋果的工程師們明確指出,他們不會造出類似“天網”的東西。

“我們使用技術來解決以前做不了的事情,已經改進舊有範式”,Schiller説,“我們確保每項技術都能以最蘋果的方式應用到產品上”。

之後,他們對於上述觀點展開了進一步的闡釋。如,人工智能在多大程度上重塑了蘋果的生態系統。蘋果研發人工智能的初衷是,彌補缺乏搜索引擎帶來的用户體驗缺失。(搜索引擎能夠訓練神經網絡,使其快速成熟)此間,高管們再次強調了蘋果對於保證用户隱私的決心。(即使這樣將限制用户數據的使用,從而阻礙機器學習的效果)高管們強調,這些障礙並非不可逾越。

這個“大腦”有多大?iPhone上有多少用户數據緩存可供機器學習調用?工程師們的回答讓我驚訝:“平均200Mb,具體多少取決於用户信息的多寡。”(為節約存儲空間,緩存會時不時被清理出去)。這些信息包括了應用的使用習慣,與他人的交互,神經網絡處理,還有“自然語言模型”。還有對象識別,人臉識別,場景識別等供神經網絡學習。

對於蘋果來説,這些數據都是你的私人信息,並不會被上傳到網絡及雲端。



儘管蘋果並沒有對其在人工智能方面的努力做出任何解釋,但我還是成功獲取了有關公司內部如何分配機器學習技術的決議。其機器學習智能可以在全公司得到共享,並且公司鼓勵生產團隊利用這一技術來解決問題,併發明一些更具特色的個性化產品。“在蘋果,我們並沒有一個單獨集中負責機器學習技術的組織”,Craig Federighi説:“我們盡力保持各個團隊之間的緊密合作,力圖應用這一技術創造出良好的用户體驗。”

那麼在蘋果有多少人在從事機器學習這一塊的工作呢?“有很多”,Federighi在受到一些刺激之後説道。(如果你認為他會告訴我具體數字,那説明你還不了解蘋果)有趣的是,負責蘋果機器學習的許多人,在進入蘋果公司之前,並沒有受到過這方面的必要訓練。“我們僱用的人才都是在一些基本領域方面十分厲害的人,比如像數學,統計學,程序設計語言,密碼學等。” Federighi説:“結果表明,這些核心的智能能夠完美地轉換為機器學習智能。儘管現在我們的確僱用了許多機器學習人才,但我們還是希望能找到具有良好核心資質和才能的人才。”


Craig Federighi(左)與Alex Acero

儘管Federighi並沒有説,但這一途徑似乎不可避免:蘋果喜歡保密,而競爭對手們則鼓勵計算機科學家將他們的研究在全球範圍內共享,這樣一來,蘋果便會處於不利地位。“我們的實踐更傾向於強化自然選擇——其實就是兩種不同類型人之間的對抗,一種喜歡通過團隊合作,進而創造出偉大的產品,而另一種則是將公佈產品和技術作為他們的首要動力”,Federighi説。如果科學家們在提升某一蘋果產品性能的同時,又恰巧在這一領域取得了重大突破,那真是再好不過了。“但正是對最終結果的幻想為我們提供了巨大動力。”Cue説。

蘋果在這方面的一些才能也來自於不斷的收購。“最近一年時間,我們已經購買了20到30家公司。這些都是相對較小而又真正需要人力的公司。”Cue 説。“當蘋果買下一個人工智能公司時,這裏肯定會有大量的機器學習研究員,但我們不會是穩定住這些人” ,Federighi説:“我們關注的是那些自身十分有才能,但又能真正注重實現絕佳體驗的人。”

最近的一次收購是位於西雅圖的Turi公司,蘋果最終以2億美元的價格收購。該公司建立了一個機器學習工具包,一直以來都被比作是Google的TensorFlow。此次收購給蘋果提供了一種不同的思索,即可以將它用作類似的用途,既用於公司內部,也可以提供給開發商。“可以肯定的是,他們的有些事情和蘋果十分匹配,無論是從技術的角度還是從個人的角度來看,都是如此。”Cue説。在一年或兩年的時間裏,或許我們就能弄清楚發生了什麼。蘋果在2013年收購了一家小的初創企業Cue,後來Siri開始顯示出一些預測能力。

無論這些才能來自哪裏,蘋果的人工智能基礎建設有助於其開發出全新的產品和功能,而這通過以前的手段都是不可能做到的。這正在改變着公司的產品線路圖。“現在在蘋果,炫酷的想法簡直層出不窮,永無止境。” Schiller説:“機器學習正在使我們對一些事情給予肯定的看法,而這些事情放在過去幾年,我們是絕對會説不的。它正在不斷深入到我們的決策當中,決定着我們下一批產品的走向。”

iPad Pro的Apple Pencil就是一個例子。為了發明出一支高科技的觸控筆,蘋果不得不面臨這樣一個問題,即當人們在設備上寫字的時候,他們的手掌底部難免會擦到屏幕,造成各種觸控失靈。這時,使用“防手掌誤觸”這樣一個機器學習模式,就能很好的解決這一問題。因為該模式能夠使屏幕傳感器感受到刮擦,觸摸和筆觸之間的區別,大大提升了觸控筆操控的精確度。“如果觸控筆無法在iPad上進行完美操作,那麼iPad就不能被看作是一張很好的可供我繼續寫字的紙,Pencil也就不會是一個好的產品。” Federighi説。所以如果你愛Apple Pencil的話,那就請感謝機器學習吧。



對蘋果機器學習方面進展的最佳測量方式,或許來自它在AI上最重要的收購:Siri。Siri最初誕生自DARPA在智能助理上的一項計劃,後來部分科學家成立了一家公司,用同樣的技術開發了一款應用。2010年,喬布斯親自説服公司創始成員將公司出售給蘋果,並指示將Siri整合進操作系統。在2011年10月iPhone 4S的發佈會上,Siri是一大點亮。現在它早已不是用户長按Home鍵,或發出“Hey, Siri”指令進行喚醒(這一功能本身也使用了機器學習,允許iPhone在不耗電的情況下了解周圍情況)這麼簡單了。Siri的智能整合進了Apple Brain,即便不發場時也在工作。

作為核心產品而言,Cue提到了四個組成:語音識別(理解你何時與它對話),自然語言理解(理解説話內容),執行(滿足查詢或請求)以及響應(產生回話)。“機器學習對所有這些都有重要影響。”


Tom Gruber(上)與Alex Acero

Siri高級研發部主管Tom Gruber是在最初的收購後加入了蘋果的,他表示,在蘋果把神經網絡用於Siri之前,其用户量已經在產生大量數據,而這對訓練神經網絡十分重要。“喬布斯説,一夜之間就會擁有數百萬用户,還不用公測。突然之間就會有用户,他們會告訴你,人們如何與應用對話。這是第一次革命,那之後神經網絡時代到來了。”

隨着Siri轉移到用神經網絡處理語音識別而來的,還有幾位AI專家,其中包括現在語音組的主管Alex Acero。Acero的語音識別經歷始於90年代的蘋果,後來他在微軟研究院工作了多年。“我喜歡這類工作,也發表了很多論文。當Siri出現時,我意識到這是讓深度神經網絡應用得以實現的機會,不是讓幾百人用,而是讓數百萬人用。”換句話説,他就是蘋果想找的那類科學家——優先考慮產品而非發表論文。

當Acero在三年前加入時,Siri用的語音技術仍基本來自第三方的授權,而這種情況必須改變。Federighi意識到,這是蘋果不斷在重複的一種模式。“隨着一項技術對開發核心產品變得越來越重要,我們會讓內部逐漸接手開發。要開發偉大的產品,我們希望內部擁有技術,並在內部創新,語音識別就是一個很好的例子。”
團隊開始訓練神經網絡,以替代Siri早前的技術。蘋果的GPU集羣不停運轉,調用了大量數量。2014年7月的發佈證明,所有努力都沒有白費。

Acero表示,“當時在所有語言上,錯誤率降低了兩倍,在很多場景下還不止如此。這都要歸功於深度學習及對它的優化,不僅是算法方面,更是在產品開發的整個過程上。”

蘋果不是第一家在語音識別中使用DNN的公司,但它證明,控制整個運轉系統會產生優勢。Acero表示,正是因為蘋果自己設計芯片,他能直接與編寫固件的芯片設計組工程師合作,最大化提升神經網絡的性能。Siri團隊的需求甚至影響了iPhone設計的方方面面。

Fdferighi表示,“不僅僅是芯片,還涉及設備上的麥克風,以及麥克風安裝的位置,還有如何調整硬件,以及處理音頻的軟件棧。這需要所有組件的協調,比起只是開發軟件的公司,有着驚人的優勢。”

另一個優勢是,當蘋果的神經網絡在一個產品上成功時,還能成為其它產品的核心技術。機器學習讓Siri理解了用户,也讓輸入方式由手動變成了聽寫。也正是因為Siri的技術,用户語音輸入的信息也變得更流暢和完整。

Cue提到的Siri第二個部分是自然語言理解。Siri在2014年11月開始用機器學習理解用户的意圖,並在一年後推出了深度學習版。如在語音識別上一樣,機器學習提升了體驗,特別是在理解指令上。

蘋果認為,沒有Siri上的技術,它不太可能開發出最新版的Apple TV,因為後者也有語音控制功能。儘管早期的Siri版本要求你用清晰的方式説話,但深度學習加強版不僅能從大量電影和音樂中找到特定的選擇,更能處理“播放一部湯姆·漢克斯主演的優秀驚悚片”這樣的概念。這在以前是完全不可能的。

在即將正式發佈的iOS 10中,Siri的聲音是最後一個被機器學習改造的部分。同樣,深度神經網絡替代了原先授權的技術。Siri的聲音來自一家語音中心收集的錄音數據庫,每句話都是語音段拼貼的結果。機器學習讓語音變得平滑,聽起來更像一個真人。

這看起來只是很小的細節,但更自然的聲音能為Siri帶來很大的改變。Gruber認為,“如果聲音質量更高,人們會感到更加可信。更好的語音能吸引用户,讓他們更常使用。”

使用Siri的意願,以及機器學習在技術上的提升,都在蘋果向開發者開放Siri的過程中十分重要。許多人注意到,蘋果在Siri上的合夥量只有兩位數,遠遠落後於亞馬遜的Alexa,後者稱外部開發者幫助開發了1000多項技能。蘋果認為這種比較沒有意義,因為亞馬遜用户要使用特定的指令方式,才可用到那些技能。Apple Watch示,Siri在與Uber和SquareCash等服務的整合上會更自然。

與此同時,蘋果對Siri的改善也得到了回報,用户發現了一些新功能,也感到常用的查詢變得更準確,而相應的,查詢數量也不斷增長。





或許,蘋果使用機器學習技術中遇到的最大問題,是如何堅持保護用户隱私的原則。蘋果會加密用户信息,包括公司律師在內的任何人都無法讀取。FBI也不能,即便獲得了批准(按:關於蘋果與FBI的對戰,可閲讀雷鋒網的解讀)。它還表示,不會收集用户信息用於廣告目的。

從用户的角度上看,這種行為值得尊敬,但這對吸引頂尖AI人才並無幫助。一位蘋果前員工表示,“機器學習專家想要的就是數據。但出於保護隱私的立場,蘋果總會有所幹預。這種做法是否正確暫不討論,但外界會認為蘋果不是鐵桿AI粉。”

蘋果高管並不認同這種觀點。他們認為無需將用户信息放在雲端,或存儲訓練神經網絡所用的數據,也能得到提升機器學習表現的數據。Federighi認為,“外界一直存在錯誤的觀點,做出了錯誤的妥協,我們想讓他們走上正軌。”

這裏有兩個問題。第一個涉及到在機器學習系統中處理個人信息,當個人詳細信息是由神經網絡收集到的時,這些信息會怎麼樣?第二個涉及到收集訓練神經網絡識別行為所需的數據,不收集個人信息,又將如何做到訓練呢?

蘋果對兩者都有答案。Cue表示,“有人認為,我們用AI做不了這些事,因為沒有數據。但我們找到了獲取所需的數據,同時保護隱私的方式。這是我們的底線。”

對於第一個問題,蘋果的解決方式是利用其獨特的對軟硬件的控制。簡單來説,多數個人信息仍保留在Apple Brain中。Federighi表示,“我們會將部分最敏感的信息保留在設備上,這時機器學習完全在本地運行。”他給出的例子是應用推薦,即在主屏上右滑時會出現的圖標。在理解狀態下,這些應用就是你意圖想用的。這種預測基於許多因素,基本都與用户的行為有關。這一功能確實有用,Federighi表示,預測用户想用圖標的概率有90%。

蘋果存在設備上的其它信息可能包括了最個人的信息:用户使用iPhone鍵盤輸入的文字。使用經過神經網絡訓練的系統,蘋果能識別出關鍵事件和項目,如航班信息,聯繫人及約會。不過這些信息都存在手機上。即使是備份在蘋果雲上的信息,也會經過處理後不能僅由備份信息進行還原。“我們不想把信息存在蘋果服務器上,公司沒必要知道你的愛好或你在哪。”

蘋果也在儘量減少整體上保存的信息。一個例子是,在交談中有人可能提到一個詞,這或許需要搜索。其它公司很可能在雲端分析整段對話,從而識別出那些詞語,但蘋果設備無需這些數據遠離用户就能識別出來。這是因為系統會不斷與手機中的知識庫進行搜索匹配。

Federight表示,“知識庫很精練,但也相當完善,儲存了成千上萬的地點和實體。”蘋果所有的應用都能用知識庫,包括Spotlight搜索應用,地圖和瀏覽器。它也能幫助自動糾錯,一直在後台運行。

機器學習圈的一個疑問是,蘋果的隱私限制是否會阻礙神經網絡算法,這也是上文中提到的第二個問題。經過大量數據訓練,神經網絡才能準確。如果蘋果不採集用户行為數據,又從哪裏得到數據呢?與其它公司一樣,蘋果用公開數據集訓練神經網絡,但總有需要更新更準確的數據的時候,而這又只能從用户中來。蘋果的做法是在不知道用户是誰的情況下收集信息。它會對數據匿名處理,隨機打上識別信息。

從iOS 10開始,蘋果會開始使用一種名為差分隱私(Differential Privacy)的新技術,它會對信息進行眾包處理,讓個人身份無法識別。這種技術可能用在出現新流行詞,而它又不在蘋果知識庫中時;也會用在某個鏈接突然變得與相關查詢的答案相關時,或某個表情被大量使用時。“傳統的方式會將用户每次輸入都傳到服務器上,然後遍歷數據來找到感興趣的東西。但我們有端到端加密,不會這樣行事。”雖然差分隱私是一個較為學術的詞,但蘋果想讓它變得更加普及。

Federighi表示,“我們數年前就開發研究,做出了能大範圍使用的有趣的成果。它的隱私程度令人驚歎。”簡單來説,差分隱私就是對數據的若干片段加入數學噪音,這樣蘋果能識別用使用模式,又不會辨別出個人身份。蘋果還授權研究相關技術的科技家發表論文,公佈他們的工作。





顯然,機器學習改變了蘋果產品的方方面面,但對於蘋果本身,機器學習改變了什麼,還有待觀察。從感覺上説,機器學習似乎與蘋果公司的氣質格格不入。蘋果喜歡對用户體驗進行全方位的控制,所有事情都事先幫你設計好,代碼極致優化。但使用機器學習,就意味着要將一部分決定權交由軟件處置。將用户體驗逐漸交給機器控制,蘋果能接受這樣的設定嗎?

“這件事情引起了內部無窮無盡的爭論”,Faderighi 説,“我們對此曾有過非常深入的思考。以往我們根據經驗,從多個維度控制人機交互的種種細節,以達到最佳的用户體驗。但如果你開始訓練機器通過大量數據模擬人的行為,結果就不再是蘋果設計師所擅長的。所有的一切都來自數據。”

但蘋果並沒有回頭,Schiller 説,“儘管這樣的技術將改變我們的工作方式,但為了做出更高質量的產品,我們終將在這條路上越走越遠”。

也許這就是問題的答案:蘋果並不會大張旗鼓地宣揚自己採用了多麼先進的機器學習技術,但他們仍會盡可能地將之運用到產品中,以期獲得更好的用户體驗。藏在你iPhone中的Apple Brain就是最好的證明。
“典型的蘋果用户,將在不知不覺中得到機器學習帶來的用户體驗的提升,並因此更加愛上蘋果產品”。Schiller 説。“最讓人興奮的是,你甚至都感覺不到它的存在,直到有一天你突然意識到,併發出由衷的感歎:“這一切是怎麼發生的?”

天網不會到來。


資料來源:雷鋒網
作者/編輯:張馳

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→