棋手眼中,AlphaGo對抗李世石用了哪些奇招 | 硬創公開課

雷鋒網 於 11/03/2016 發表 收藏文章
雷鋒網按:本文來自 硬創公開課 | AlphaGo專場的分享。

分享嘉賓:業餘圍棋5段,高飛龍。一併感謝業餘圍棋6段,鮑雲對本次分享的友情支持。


一、圍棋圈內怎麼看待前兩場的勝負

第一局比賽,過程中大部分棋手很可能出現了相當程度的誤判,認為李世石一度佔優,而第二局比賽後,職業高手們對AI的決策原理了解的越來越多,判斷也不斷地在改變。

第一局輸掉後,大家的情緒都很低落,雖然知道這一天早晚會來,但事前都認為沒這麼快,人類應該還能抵抗一段時間,但第二局結束後,大家對AI的實力判斷普遍調高,很多人甚至認為柯潔現在上了也未必能贏。當晚,大量的職業高手就進行了深度的反思和討論,尤其是李喆六段。

(根據我得到的信息)AlphaGo在第一局中,對自身獲勝概率的判斷應該始終高於半數,也就是我們説的始終優勢,而第二局中,它反而在中盤有一段時間認為獲勝概率為半數,也就是預測和棋,這和大部分人類高手在解説時的判斷完全不同,是一個非常有趣的現象。

但賽後經過深入的分析,我聽到的聲音越來越傾向於支持電腦的判斷,也就是説,第一局棋,李世石的確沒有優勢過,而我們要重新審視電腦下出的那些“緩手”和“錯着”

二、如何評價此前大家認為兩局中人和機器雙方的“失誤”?



首先,正如我前面所説,我個人認同第一局中,李世石始終沒有佔據優勢,所以,也就沒有所謂轉折點的説法。

電腦的確下出了一些從普通棋理來看有問題的下法,並且取得了勝利,但這不一定説明棋理完全是錯的。

我想重複一下很多人都已經提過的一點,這也是我們審視棋局非常重要的信息:電腦行棋的決策,是依據對落點後續變化的獲勝概率來判斷的。

這裏我想引用一下李喆六段在第一天晚上覆盤的講解:


電腦的這一步長,當場被所有人視為緩手。但是覆盤時李喆認為,這一手棋不一定不好,甚至在電腦的決策中,這已經是最好的一手(其實這是肯定的,因為電腦就是這樣選擇的)。


如果電腦不補棋,黑棋在左上的出動可能極為嚴厲,當然這不是説白棋就一定不能這麼下,只是這後面的變化相當複雜,電腦應該判斷這樣的獲勝概率不如實戰的下法,所以選擇了實戰的“緩手”補棋。

緊接着,還有一個關鍵處,當時所有人都認為電腦的下法簡直不可理喻,但我們還是順着電腦的邏輯來複盤,就有辦法理解:


這步斷,直接將大空送給黑棋,局部來説,是嚴重虧損的下法,但電腦選擇了這個下法,然後所有人都認為黑棋已經明顯優勢,可局後AG團隊卻説AG始終判斷自己優勢,為什麼?


左下白棋損了一大把,然後做了幾個簡單的準備性交換之後,下出了右邊的點,這步點被所有人認為是精彩的“勝負手”,局後也認為是妙手,但我們可能忽略了一個可能:電腦早就將這步棋和其導致的後續變化算在了形勢判斷中。

也就是説,電腦知道這以後它將在右邊一代走成後續的變化,這是它的“權利”,所以即使左下角白棋嚴重虧損,但搶到先手之後將右邊的“權利”兑現,白棋仍然是優勢。

而左下局部虧損的下法,可能讓它贏的更少,但卻縮小了棋盤,令盤上剩餘的空間和變化都大大減少了,用人類的説法,就是縮小了棋盤並接近終點,這和AG的邏輯是一樣的,只不過AG可以通過獲勝概率來更精準的判斷這一點。
所以AG在選擇左上的緩手補棋,選擇左下的虧損變化搶先手的時候,已經考慮了這所有的變化並將後續在右邊點入佔到的便宜計入形勢判斷,所有這些走完之後,棋盤大幅度減小並且白棋局面領先,從電腦的角度來看,自己的獲勝概率一直在提高。

(當然,這裏包含了一些我從他人處看來的觀點,還包含了我個人的一些猜想式的判斷,可能會過於高估電腦,但我認為我們應該高估而不應該低估,更何況從結果來看,這種猜想很可能是對的,AG就是看了這麼遠)

二、如何看待外界評價對弈中沒有“打劫”的問題?



打劫包含很多轉換的可能,對電腦來説可能會降低獲勝概率,哪怕只是從90%降低到80%,所以它不選擇打劫。即使對人來説也是這樣,在贏棋的局面下,講究簡化局面減少變化,儘量不選擇複雜的打劫,增加獲勝的可能。

沒打劫的棋也多了,沒什麼特別離奇的,打了也輸,就是李沒拼顯得有點沒骨氣,很多人覺得他沒有表現出人類的風采。(鮑雲觀點)

三、AlphaGo與人類走子的差異



很多人説AG和人類棋手下的不是一種圍棋,它是以獲勝概率為指向,而人是以局部賺幾目虧幾目來判斷,其實不是這麼簡單。這種説法其實對人類圍棋的高水平段不太了解。

正如我回答前一個問題所説,人類也會在逼近終局的時候,選擇虧損但是縮小棋盤減少變化的方式,來逼近終點。這就是典型的以減少獲勝目數來提高獲勝概率的決策。只不過人類對概率的判斷基於經驗和直覺,應該比不上成熟之後的電腦的判斷準確度。

但如果是最優解,也就是我們説的“圍棋上帝”,很可能於此不同。我們現在的對局,是單一的全局獲勝就全部獲勝,輸贏的目數多少其實沒有意義。而人會失誤,所以出現了我前述所言的目數換概率的決策方式。但如果現在有一個“神”,它窮盡了圍棋所有的變化,根本不會失誤,那當他跟李世石下的時候,會這樣嗎?

當然,無論如何他都能贏,那麼從追求圍棋最優解的角度來説,他就可能不使用目數換概率的決策,因為他獲勝的概率一定是百分之百,那麼對他來説,最優解就應該是儘量提高獲勝目數。

這裏我想舉兩個例子。


白棋136,按照最優解應該下在A位,在這樣的相對封閉空間裏,電腦應該不會在手段和目數的計算上出現失誤。

但它這樣決策,就説明它認為,雖然虧了一目,但這樣的下法後續更不容易出現失誤(或者類似),所以獲勝概率提高了。還有一個讓所有人頭疼的例子:


如果説電腦前半盤的“緩手”當天還可以很快解釋,那麼右下角的這個“失誤”就讓很多人難以理解,只能認為電腦確實算錯了,或者判斷錯了~由此認為電腦不是無懈可擊。

這步棋按照人的思路,只需要跳在一四,黑棋將輸的更快。


黑2是我隨便擺的,意思是脱先。白1跳在這裏,黑棋如果脱先,則白棋保留這樣救出上方三子的手段,黑棋輸的更慘。如果黑棋補棋,則丟掉先手,一樣比實戰慘。

可電腦為什麼沒有這麼下?看過第二盤之後,我們對電腦的計算力有了新的認識,更多的人認為,電腦的計算水平應該不至於算不到這個變化,而是認為這個變化獲勝的概率不如實戰。

這同樣是一個封閉空間,人類提出的下法是最優下法,這沒有疑問,因為在這個空間裏,人類可以窮盡所有變化。但是AG呢?它肯定也能。

我第一天晚上始終對這個局部想不明白,認為是電腦的失誤,但第二日後慢慢覺得,它的決策模型,雖然我不知道怎麼判斷的概率,一定認為這些後續變化降低了獲勝概率。

四、如何預測下一場比賽的勝負?



不知道。如果按照以上這些分析的判斷,我會高估電腦一些。

也就是電腦很可能全勝,但出於感情,我支持李世石贏一盤。

我們看到電腦有些局部可能不選擇最優解,這種“失誤”到底是不是“失誤”,在於有沒有“人”能利用其獲勝。

我有一個大膽的猜想,如果想要打敗這一代的AI,很可能會是下一代的AI,而不是人類高手。



五、AlphaGo的圍棋觀和人類的不同



電腦從開始到最後,一直是獲勝概率導向的,而人因為很難準確的判斷概率,會以大量的棋理和判斷來進行決策,但這些本身就包含獲勝的概率。人類總結出的棋理,本就是獲勝概率最高(人的判斷)的下法。至於目數的賺和損,只是一些同質化的判斷方式。

如果棋理的獲勝概率被證明不夠高,説明棋理不夠好,人家的棋理本身就是在不斷革新,逼近最優解的,所以一些所謂電腦不看棋理的説法其實沒有意義,選擇最優的規律,本身就是理,人將之用人類可以理解的方式解釋出來,就成了棋理。只不過人類對圍棋規律的發掘還不夠深,我們並不是所有的一切認識都是對的。

簡單一句話吧,不同地方太多了,但客觀講,程序下的有道理,人應該好好分析學習,當然,程序下的還不是完美的圍棋,批判着學吧。(鮑雲觀點)

讀者提問:



“人們一直覺得圍棋太複雜,計算機無法駕馭,結果忽然發現自己才是那個無法駕馭它的。”怎麼看?

李理:我覺得是有一定道理的,其實以後人類也可以利用計算機來幫助訓練棋感,從而離最優走法更近一步。現在中國象棋很多職業選手就利用了計算機來”做功課“,開發一些之前認為”不好“的走法。

我覺得人類應該要勇敢的承認自己的不足,然後利用自己的優勢。而不是一定要跟機器比計算。用中國古代的觀點,就是天人合一,人本身也是宇宙的一部分。

高飛龍:我一直以來的觀點都可以解釋。遠在AlphaGo面試之前:

圍棋的規律是客觀存在的,人類更像是“發現”了圍棋而不是“創造”了圍棋,所以人類圍棋的發展史就是不斷逼近最優解,不斷發現逼近最優解的“規律”的歷史。

一代又一代頂尖棋手,不斷的提高人類圍棋水平的峰值,就是這麼一個過程。

也因此,很多外行問棋手,歷史上的某某和某某誰更強的類似問題,大家都會回答,後面的更強(一般都是)。

現在我們的計算工具已經如此發達,達到或超過了人類頂峰的水平,將來我們可以藉助工具,更好的探索圍棋規律,也因此,我個人很希望將來可以有一兩台訓練好的圍棋程序供大家來學習(雖然我知道Google和臉書都是降維打擊,志在人工智能而非志在圍棋)。

高飛龍:至於一些各個角度進行嘲諷的聲音,我認為口水終將湮沒在歷史的塵埃中。

AlphaGo雖然贏了,但是它又有什麼弱點呢?



高飛龍:概率導向導致它可能不選擇最優,所以局部變化可能出“錯”,當然這兩盤棋裏,ag出現這種下法都是在贏定的情況下才下的,所以對人類來説沒有意義,人類無法利用這些“錯”獲勝。

這種類似人類的“損目換縮小棋盤”的下法,需要強大的控制力,而它正顯示了自己的控制力。

而前半盤,它的概率判斷也同樣可能有問題,但現在來看,似乎不見得比人類頂峰差,甚至更好~所以我想它的弱點,可能就在於它還不是“圍棋上帝”。

(這對於被甩在身後的我們來説,似乎不像是弱點)隨着它的變強,人類頂峰利用這些縫隙獲勝的機會或越來越小,大致如此。

題圖來自:wordpress.com

歡迎掃描二維碼,加入硬創公開課的公開分享羣,我們也期待在後續的直播中繼續切磋交流。也歡迎推薦和自薦分享嘉賓。



資料來源:雷鋒網
作者/編輯:吳德新
標籤: AlphaGo  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→