深入淺出Google人工智能圍棋「大腦」

36氪 於 22/02/2016 發表 收藏文章

文章首發於 “董老師在矽谷”(微信號:donglaoshi-123),歡迎關注。

在象棋和國際象棋中,電腦軟件都非常厲害,只有圍棋是唯一 “電腦下不過人類” 的項目。而今年1月 份有個爆炸性新聞:Google DeepMind 開發的人工智能圍棋程序 AlphaGo 以 5:0 的壓倒性優勢擊敗了歐洲圍棋冠軍、專業二段棋手。那麼 3月 份 AlphaGo 會和韓國九段、世界冠軍李世石進行對弈。如果此役 AlphaGo 獲勝,這意味着人工智能真正里程碑式的勝利。


這也引起了筆者好奇心,在春節期間,跟 Facebook 的田淵棟(他的背景無可挑剔,卡耐基梅隆大學機器人系博士,Google X 無人車核心團隊,Facebook 人工智能組研究員)交流,他做的也是計算機圍棋 AI--黑暗森林(熟悉三體的朋友知道怎麼回事),今年1月 份他的文章被機器學習頂級會議 ICLR 2016 接受,(表達學習亦被江湖稱作深度學習或者特徵學,已經在機器學習社區開闢了自己的江山,成為學術界的一個新寵。)

他聊天中談到自從Google收購了 DeepMind,投入大量資源去做好人工智能項目,不為別的,就是要向世界證明Google智能的強大。發表在頂級期刊《Nature》的論文光看作者就 20 個,明顯是下了血本,前兩位都是計算機圍棋界的大牛,一作 David Silver 是計算機圍棋和強化學習的頂級專家,整個博士論文就是做的圍棋; 二作 Aja Huang 以前寫過多年圍棋軟件,自己又是 AGA 6D 的水平。

還是不多説廢話,下面是 SpinPunch CTO 對 AlphaGo 的工作原理解讀,原文見參考資料。

------------------

Google DeepMind 宣佈他們研發的神經網絡圍棋 AI,AlphaGo,戰勝了人類職業選手。這篇論文由 David Silver 等完成。裏面的技術是出於意料的簡單卻又強大。為了方便不熟悉技術的小白理解,這裏是我對系統工作原理的解讀。

深度學習

“深度學習” 是指多層的人工神經網絡和訓練它的方法。一層神經網絡會把大量矩陣數字作為輸入,通過非線性激活方法取權重,再產生另一個數據集合作為輸出。這就像生物神經大腦的工作機理一樣,通過合適的矩陣數量,多層組織鏈接一起,形成神經網絡 “大腦” 進行精準複雜的處理,就像人們識別物體標註圖片一樣。

雖然神經網絡在幾十年前就有了,直到最近才形勢明朗。這是因為他們需要大量的 “訓練” 去發現矩陣中的數字價值。對早期研究者來説,想要獲得不錯效果的最小量訓練都遠遠超過計算能力和能提供的數據的大小。但最近幾年,一些能獲取海量資源的團隊重現挖掘神經網絡,就是通過 “大數據” 技術來高效訓練。

兩個大腦

AlphaGo 是通過兩個不同神經網絡 “大腦” 合作來改進下棋。這些大腦是多層神經網絡跟那些 Google 圖片搜索引擎識別圖片在結構上是相似的。它們從多層啟發式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網絡處理圖片一樣。經過過濾,13 個完全連接的神經網絡層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。


這些網絡通過反覆訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的隨機性元素,所以我們是不可能精確知道網絡是如何 “思考” 的,但更多的訓練後能讓它進化到更好。

第一大腦: 落子選擇器 (Move Picker)

AlphaGo 的第一個神經網絡大腦是 “監督學習的策略網絡 (Policy Network)” ,觀察棋盤佈局企圖找到最佳的下一步。事實上,它預測每一個合法下一步的最佳概率,那麼最前面猜測的就是那個概率最高的。你可以理解成 “落子選擇器”。


落子選擇器是怎麼看到棋盤的?數字表示最強人類選手會下在哪些地方的可能。

團隊通過在 KGS(網絡圍棋對戰平台)上最強人類對手,百萬級的對弈落子去訓練大腦。這就是 AlphaGo 最像人的地方,目標是去學習那些頂尖高手的妙手。這個不是為了去下贏,而是去找一個跟人類高手同樣的下一步落子。AlphaGo 落子選擇器能正確符合 57%的人類高手。(不符合的不是意味着錯誤,有可能人類自己犯的失誤)

更強的落子選擇器

AlphaGo 系統事實上需要兩個額外落子選擇器的大腦。一個是 “強化學習的策略網絡(Policy Network)”,通過百萬級額外的模擬局來完成。你可以稱之為更強的。比起基本的訓練,只是教網絡去模仿單一人類的落子,高級的訓練會與每一個模擬棋局下到底,教網絡最可能贏的下一手。Sliver 團隊通過更強的落子選擇器總結了百萬級訓練棋局,比他們之前版本又迭代了不少。

單單用這種落子選擇器就已經是強大的對手了,可以到業餘棋手的水平,或者説跟之前最強的圍棋 AI 媲美。這裏重點是這種落子選擇器不會去 “讀”。它就是簡單審視從單一棋盤位置,再提出從那個位置分析出來的落子。它不會去模擬任何未來的走法。這展示了簡單的深度神經網絡學習的力量。

更快的落子選擇器

AlphaGo 當然團隊沒有在這裏止步。下面我會闡述是如何將閲讀能力賦予 AI 的。為了做到這一點,他們需要更快版本的落子選擇器大腦。越強的版本在耗時上越久-為了產生一個不錯的落子也足夠快了,但 “閲讀結構” 需要去檢查幾千種落子可能性才能做決定。

Silver 團隊建立簡單的落子選擇器去做出 “快速閲讀” 的版本,他們稱之為 “滾動網絡”。簡單版本是不會看整個 19*19 的棋盤,但會在對手之前下的和新下的棋子中考慮,觀察一個更小的窗口。去掉部分落子選擇器大腦會損失一些實力,但輕量級版本能夠比之前快 1000 倍,這讓 “閲讀結構” 成了可能。

第二大腦:棋局評估器 (Position Evaluator)

AlphaGo 的第二個大腦相對於落子選擇器是回答另一個問題。不是去猜測具體下一步,它預測每一個棋手贏棋的可能,在給定棋子位置情況下。這 “局面評估器” 就是論文中提到的 “價值網絡(Value Network)”,通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對於閲讀速度提高很有幫助。通過分類潛在的未來局面的 “好” 與 “壞”,AlphaGo 能夠決定是否通過特殊變種去深入閲讀。如果局面評估器説這個特殊變種不行,那麼 AI 就跳過閲讀在這一條線上的任何更多落子。


局面評估器是怎麼看這個棋盤的。深藍色表示下一步有利於贏棋的位置。

局面評估器也通過百萬級別的棋局做訓練。Silver 團隊通過 複製兩個 AlphaGo 的最強落子選擇器,精心挑選隨機樣本創造了這些局面。這裏 AI 落子選擇器在高效創建大規模數據集去訓練局面評估器是非常有價值的。這種落子選擇器讓大家去模擬繼續往下走的很多可能,從任意給定棋盤局面去猜測大致的雙方贏棋概率。而人類的棋局還不夠多恐怕難以完成這種訓練。

增加閲讀

這裏做了三個版本的落子選擇大腦,加上局面評估大腦,AlphaGo 可以有效去閲讀未來走法和步驟了。閲讀跟大多數圍棋 AI 一樣,通過蒙特卡洛樹搜索(MCTS)算法來完成。但 AlphaGo 比其他 AI 都要聰明,能夠更加智能的猜測哪個變種去探測,需要多深去探測。


蒙特卡洛樹搜索算法

如果擁有無限的計算能力,MCTS 可以理論上去計算最佳落子通過探索每一局的可能步驟。但未來走法的搜索空間對於圍棋來説太大了(大到比我們認知宇宙裏的粒子還多),實際上 AI 沒有辦法探索每一個可能的變種。MCTS 做法比其他 AI 有多好的原因是在識別有利的變種,這樣可以跳過一些不利的。

Silver 團隊讓 AlphaGo 裝上 MCTS 系統的模塊,這種框架讓設計者去嵌入不同的功能去評估變種。最後馬力全開的 AlphaGo 系統按如下方式使用了所有這些大腦。

1. 從當前的棋盤佈局,選擇哪些下一步的可能性。他們用基礎的落子選擇器大腦(他們嘗試使用更強的版本,但事實上讓 AlphaGo 更弱,因為這沒有讓 MCTS 提供更廣闊的選擇空間)。它集中在 “明顯最好” 的落子而不是閲讀很多,而不是再去選擇也許對後來有利的下法。

2. 對於每一個可能的落子,評估質量有兩種方式:要麼用棋盤上局面評估器在落子後,要麼運行更深入蒙特卡羅模擬器(滾動)去思考未來的落子,使用快速閲讀的落子選擇器去提高搜索速度。AlphaGo 使用簡單參數,“混合相關係數”,將每一個猜測取權重。最大馬力的 AlphaGo 使用 50/50 的混合比,使用局面評估器和模擬化滾動去做平衡判斷。

這篇論文包含一個隨着他們使用插件的不同,AlphaGo 的能力變化和上述步驟的模擬。僅使用獨立大腦,AlphaGo 跟最好的計算機圍棋 AI 差不多強,但當使用這些綜合手段,就可能到達職業人類選手水平。


AlphaGo 的能力變化與 MCTS 的插件是否使用有關。

這篇論文還詳細講了一些工程優化:分佈式計算,網絡計算機去提升 MCTS 速度,但這些都沒有改變基礎算法。這些算法部中分精確,部分近似。在特別情況下,AlphaGo 通過更強的計算能力變的更強,但計算單元的提升率隨着性能變強而減緩。

優勢和劣勢

我認為 AlphaGo 在小規模戰術上會非常厲害。它知道通過很多位置和類型找到人類最好的下法,所以不會在給定小範圍的戰術條件下犯明顯錯誤。

但是,AlphaGo 有個弱點在全局判斷上。它看到棋盤式通過 5*5 金字塔似的過濾,這樣對於集成戰術小塊變成戰略整體上帶來麻煩,同樣道理,圖片分類神經網絡往往對包含一個東西和另一個的搞不清。比如説圍棋在角落上一個定式造成一個牆或者引徵,這會劇烈改變另一個角上的位置估值。

就像其他的基於 MCTS 的 AI, AlphaGo 對於需要很深入閲讀才能解決的大勢判斷上,還是麻煩重重的,比如説大龍生死劫。AlphaGo 對一些故意看起來正常的局也會失去判斷,天元開盤或者少見的定式,因為很多訓練是基於人類的棋局庫。

我還是很期待看到 AlphaGo 和李世石 9 段的對決!我預測是:如果李使用直(straight)式,就像跟其他職業棋手的對決,他可能會輸,但如果他讓 AlphaGo 陷入到不熟悉的戰略情形下,他可能就贏。

-------------------

原文結束分割線,下面是董老師抒情詠歎調:)

這裏我還想到另一個人,中國最強大腦選手鮑橒,當時看了他走出蜂巢迷宮,被他的超強的空間記憶和想象能力深深震撼了,而他的職業就是圍棋選手,並且是盲棋。他能完成 1 對 5 的圍棋盲棋,實在是很不可思議的事情。在圍棋圈內,幾乎沒有棋手能完成盲棋,因為確實太難了。筆者也向他詢問了對這個事情看法,他説,歐洲冠軍沒能摸到程序的底,但從棋譜來説,對Google程序我也難以取勝,確實下的不錯。雖然圍棋圈一致看好李世石,不過我不敢確定Google的程序 3月 份進展到什麼地步。

再説到 Facebook 田博士,跟Google DeepMind 超豪華團隊長期投入不同,他就在半年多前從立項到實現,直到最近才有一個實習生加入幫他,而背後是他付出的心血,為了搶時間,在聖誕新年都是加班加點,按他所説,每日工作 10+小時,自己搭機器,寫代碼,調參數,單槍匹馬做出成績。

談到跟Google團隊的較量,田博士説:“這是一場必敗的戰鬥”,但我還是很佩服他,他讓我想到三國時代趙子龍,單槍匹馬大戰曹軍,力拔山兮氣蓋世!因為他是真正的勇士。正是有了這些英勇無畏的科學家,一次次打破常規,挑戰極限,我們才知道人類如此大的潛力。最近短短几年的發展,從大數據,深度學習人工智能到虛擬現實,從發現了類地球行星,證實引力波,從 Hyperloop,無人駕駛,量子計算,這些魅力無窮的科技讓我們對世界的認識上升到新的高度。面對這個激動人心的時代,我想説,天空是我們的極限,宇宙是我們的極限,未來才是我們的極限!

最後允許我拿田博士的話來結束。

我有時候會問自己:“我是不是背棄了夢想?” 我想除了我自己,任何人都不會給我答案,任何評論也不具效力。我記得有人問過,如果夢想從踐行的一開始,就在不自覺地向現實妥協,那樣的夢想還是最初的夢想麼?其實,這樣的問題沒什麼可糾結的,因為世界從來就不是二元的,夢想和現實,如同高懸的日月,日月 之間,有一條灰色的路,在自己腳下蜿蜒曲折,繞過各種險阻,一直向前。

“而我能做的,只是要在奔跑時,不停提醒自己,還記得 “夢想” 這個詞的含義。”

參考資料


本文首發於微信公眾號董老師在矽谷(ID: donglaoshi-123),轉載請註明出處。

原創文章,作者:董老師,如若轉載,請註明出處:http://36kr.com/p/5043561.html

“看完這篇還不夠?如果你也在創業,並且希望自己的項目被報道,請戳這裏告訴我們!”


資料來源:36Kr
標籤: Google  AI  lphaGo  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→