深度學習三十年創新路

由 36氪於 15/06/2015 發表收藏文章

歷史究竟發生了什麼? 深度學習為什麼突然火了？

標誌性事件是，2012年底，Geoff Hinton的博士生Alex Krizhevsky、Ilya Sutskever（他們研究深度學習時間並不長）在圖片分類的競賽ImageNet上，識別結果拿了第一名。其實類似的比賽每年很多，但意義在於，Google團隊也在這個數據集上做了測試（非公開的，Google沒有顯式參加學術界的“競賽”），用的也是深度學習，但識別精度比Geoff Hinton的團隊差了很多，這下工業界振奮了。

這個“Google團隊”的特殊意義在於，不同於其他Google團隊，這個項目受到Google足夠的戰略級重視，有着世界級的明星領導者，包括 Andrew Ng，還有 Google 神人 Jeff Dean（他們在深度學習領域已投入很多，併到處宣講他們的戰果），以及業界無法企及的硬件和數據資源支持。我想，如果沒有這樣巨大反差，深度學習還不會得到這麼快的傳播和認可（當時的學術界還不知道Google內部的測試成績，只知道Geoff Hinton得了第一，擊敗了另一個學術界頂級的Oxford團隊；甚至今天，很多人還不知道這段歷史）。兩個“小毛孩”打敗了業界神話。到這裏，Google投入產出並不有説服力，甚至是可恥的。
工業界似乎不需要、也不該關心面子。緊接着，巨頭的壟斷遊戲開始了。在機器學習方面頂級年度會議（NIPS），Google競價超過了微軟等其他公司，收購了Alex Krizhevsky、Ilya Sutskever 和 Geoff Hinton 剛剛註冊幾個月的公司，好像是5000萬美元買了三個人的部分時間。現在，Google 做不好的人可以正式拉着 Geoff Hinton 聊天了；Facebook作為迴應，挖了Yann Lecun，讓他在紐約領導成立了 Facebook AI lab；Andrew Ng則離開Google去了百度。

從“硬”結果來説，其實此時的百度做得不會比過去的 Google 差，但“軟”名聲還是因此提高很多：相比於Google X, Facebook AI lab, Google Brain等，“深度學習研究院”這個用算法命名部門的主意得要“魄力”的。後來Yann Lecun組的學生出來了一半，陸續開了幾家深度學習的創業公司，其中一家早被 Twitter 收購。另外一些，加入了 Facebook 和 Google 。估計深度學習給 Geoff Hinton和 Yann Lecun 的組帶來了近十個千萬富翁。
但更有意思的是（很有啟發性並值得思考），Alex Krizhevsky 和 Geoff Hinton的競賽用的正是 Yann Lecun 發明的卷積神經網，但結果剛出來時（實現細節還沒有公佈），Yann Lecun和他的NYU實驗室成員甚至沒法重複Geoff Hinton的結果。自己發明的算法，使用結果不如另外一個組。這下炸了鍋，Yann Lecun開了組會，反思的主題是“為什麼過去兩年我們沒有得到這樣的成績” 。

高手過招，Idea is cheap; The devil is in the details （有想法很廉價；魔鬼在細節處）。想法其實很重要，但只能區分高手和普通人。高手都有想法，但誰才能創造歷史呢？Yann Lecun 這樣的實驗室需要反思什麼呢？先看看他們有些什麼吧。我經歷過巔峯時期的微軟亞洲研究院（十五年前，這裏的實習生只能是名校的各系第一名）、UCLA (排名10名左右)、MIT AI lab (計算機專業第一名)，實驗室的茶歇時間 Tea Time, 過道擠滿了頂級會議的最佳論文獲得者---NIPS, CVPR等。基於以上經驗，我先介紹一下 Yann Lecun 實驗室的過人之處。
Yann Lecun上課教授和使用的是他自己寫的語言Lush，用來替代 matlab（很方便描述矩陣運算、圖像處理等）、python在科學研究的功能；他的團隊三十年如一日的專注於神經網絡的研究，從不隨波逐流，課題覆蓋卷積神經網的方方面面。有的博士生聰明數學好，非常敏感於卷積神經網模型的深刻理解；有的博士生專注於結構參數的行為分析（多少層啊之類）；有的博士生研究在不同數據分佈（應用場景下）的表現，比如字母識別、圖像分類、物體檢測、場景分類等。

這樣的學術堅持，是在怎樣的艱難背景下呢？人工智能領域，神經網絡思想在80年代末開始衰落，之後分別經歷了幾個劃時代的圖靈獎級工作的興起，統計學習理論（帶來支持向量機 SVM 算法），可學習理論(帶來 Boosting 算法)，概率推斷（圖模型，graphical model）幾乎壟斷了過去的三十年。在之前提到2012年的 Geoff Hinton 團隊的深度學習打敗Google的標示性事件前，圖模型的思想橫掃計算機視覺領域（超越了boosting，SVM等）。這使得深度學習生存艱難，沒有多少同行在研究中使用深度學習，更多年輕學生願意去“時髦”的機器學習研究組。
2006年，Yann Lecun的文章還在闡述深度學習如何能跟當年流行的圖模型（比如條件隨機場模型）等價，證明自己的工作在不同數據集上也能和圖模型做到相當的識別精度。儘管在2012年末，Alex Krizhevsky、Ilya Sutskever 兩個“小毛孩”在競賽中用深度學習打敗了Google團隊，工業界炸鍋。但是，工業界對深度學習的追捧傳遞迴學術界發生在一年以後，原因是，除了頂級教授因為私人關係能知道工業界最前沿進展，大部分學術界教授並沒有公開渠道及時獲取信息，但這些教授卻是學術工作評審的主力。因此，直到2013年，Yann Lecun 的文章在計算機視覺的頂級會議上（CVPR）依然很難發表（這時的深度學習在多項數據集上相比其他“傳統”方法並不排他性的出色）。

Yann Lecun 像戰士一下對抗着學術界的“庸俗”和“傳統”，在不同場合討伐從業人員的態度、標準和品味，公開發文抵制計算機視覺頂級會議CVPR，並於2013年創辦了新的學術文章發佈體系（ICLR）。可笑的是，僅僅不到兩年的時間，現在，視覺的文章沒用上深度學習很難發表。主流（不見得創造歷史）的和最需要獨立思想和自由批判精神的年輕學者，卻似乎沒有節操的要和深度學習沾上邊（當上“千”個博士生都在研究深度學習的時候，應該不需要什麼獨立見解和勇氣）。今天，反而是三十年後捲土重來的Yann Lecun（還有Bengio，Geoff Hinton）願意站在先鋒，批判性的談論深度學習的泡沫繁榮，呼籲學術界、資金擁有者冷靜。反差很是讓人感慨。

http://a.36krcnd.com/nil_class/1ed3d6ae-9c4d-4a3f-973f-73de46edc4ee/_____2015-06-15___8.58.43.png

圖片來源：a.36krcnd.com

上圖為Yoshua Bengio

到底當時，Yann Lecun 和 Geoff Hinton的團隊細微差別在哪呢？高手也可能錯過什麼呢？或許我們很難有接近事實的答案，原因可能很複雜；但技術上的分解（下次我會撰文就這個問題專門討論一下，期待有興趣的朋友和我共同交流，郵箱：leo@yitu-inc.com）。以及對於歷史的真實解讀才有助於我們拋開浮華，啟發一樣追求創新的我們，無論是學術研究還是創業。
附：作者和深度學習的關係：作者 Leo 是依圖科技CEO，也是加州大學洛杉磯分校（UCLA）統計學博士，師從 Alan Yuille 教授，思想上屬於 Bayesian 理念，繼承大師 Stuart Geman（美國數學家，科學院院士, 他和弟弟在84年的馬爾科夫隨機場奠基性工作，足足影響了之後三十年的科研歷史）、David Mumford（美國數學家，74年菲爾茲獎得主）和概率學大師Ulf Grenander開創的 Pattern Theory 學派（這些數學家的工作大大早於計算機領域的圖模型）。創立依圖前，作者在 Yann Lecun 的實驗室研究圖模型和深度學習的關係，可以從不同視角看深度學習。

本文來自讀者投稿，不代表 36氪立場

資料來源：36Kr

< 1 2 >

標籤: 深度學習

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

36氪 36氪（36Kr.com）是中國領先的科技新媒體，我們報導最新的互聯網科技新聞以及最有潛力的互聯網創業企業。我們的目標是，通過對互聯網行業及最新創業企業的關注，為中文互聯網...

編輯簡介

36氪 36氪（36Kr.com）是中國領先的科技新媒體，我們報導最新的互聯網科技新聞以及最有潛力的互聯網創業企業。我們的目標是，通過對互聯網行業及最新創業企業的關注，為中文互聯網讀者提供一個最佳的了解互聯網...

快捷鍵：←

快捷鍵：→

深度學習三十年創新路

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App