人工智能將成為新任「賭神」:DeepMind 能玩轉撲克牌嗎?

TECH2IPO 於 31/03/2016 發表 收藏文章
DeepMind(Google 子公司 )的人工智能 AlphaGo 成功以 4 比 1 的戰績擊敗冠軍級圍棋選手李世石,並藉此向世人宣告人工智能技術已經攻克圍棋項目。那麼值得 DeepMind 攻堅的下一項任務又會是什麼呢?

倫敦大學學院(University College London)的兩位研究員撰寫了一篇論文,並在論文中提出了一個值得人工智能技術攻堅的項目:撲克牌。和圍棋項目不同,人工智能技術若能在撲克項目上取得勝利,研究人員可以將所贏取的資金作為後續科研經費使用。至少在人類醒悟並決定不再在撲克牌上和人工智能產品對賭之前,這個想法依然奏效。

論文的兩位作者分別是約翰內斯·海因裏希(Johannes Heinrich)和大衞·西爾韋(David Silver),前者是倫敦大學學院的在讀研究生,而後者則是倫敦大學學院的講師。但西爾韋還有着另一層身份:他是 DeepMind 的僱員,而且還是 AlphaGo 項目的主要編程人員。一直以來,西爾韋都被稱為是 DeepMind 中默默無聞的英雄,但這篇論文主要和他在倫敦大學學院的工作有關。

論文的研究課題為「從不完全信息遊戲的自我博弈中深度強化學習」,作者在論文中描述了他們嘗試教導電腦 2 種撲克牌遊戲的過程,這兩種遊戲分別為只使用 6 張撲克牌的簡化遊戲「Leduc」以及在全世界廣受歡迎的德州撲克。





兩位研究人員所使用的機制和 AlphaGo 擊敗李世石時所使用的非常相似。在實驗中,計算機通過自學的方式成功掌握了德州撲克的技巧。據稱,實驗所用計算機在德州撲克上的表現已經接近人類專家水平,所使用的策略也非常先進。而在 Leduc 的表現中,計算機會採取儘量靠近納什均衡的策略,亦即遊戲中的一個數學最優解。

和 AlphaGo 的項目一樣,這次兩位研究員也使用了所謂的深度強化學習技術,這種技術融合了兩種不同的機器學習方法:神經網絡技術和強化學習技術。前者通常被應用於大數據領域,由簡單決策點組成的網絡經過大量信息的訓練後可以解決異常複雜的難題。

但在訓練數據數量不足,或者訓練數據不足以保障訓練質量時,強化學習技術可以幫上忙。在這門技術的支撐下,機器在執行任務時可以從自己的錯誤中吸取教訓,進而強化訓練效果。這個循環會一直持續,直至機器的表現達到要求為止。和人類選手不同,計算機在學習撲克牌技巧時可以和自己進行博弈,海因裏希和西爾韋將這個過程稱為「神經虛擬自我博弈」。

在自我博弈的過程中,撲克牌系統可以獨立地找出撲克牌遊戲的數學最優策略,研究人員甚至無需提前將和撲克牌相關的知識通過編程傳授給機器。在某種程度上,撲克牌甚至比圍棋更能讓計算機為難,因為計算機不能從中獲取完全信息。儘管計算機可以通過概率知識精準計算出對手持有某張手牌的概率,但它並不能理解對手的行為。

儘管在本次實驗中,計算機仍然未能考慮對手的心理因素,但海因裏希和西爾韋卻指出在他們的計算機會自我創造,而不僅僅是依賴專業知識。

在接受《衞報》(Guardian)採訪時,海因裏希表示:「實驗結果的關鍵在於我們所使用的算法具有一般性,且計算機可以在沒有任何先行知識的情況下從零開始學習撲克牌遊戲。由此我們不難推測,這種方法面對所有的策略性問題都有效。」

「最大的障礙在於一般強化學習技術所關注的更多是單個個體和靜態世界之間的互動情況,而策略性問題更多關乎多個個體之間的互動情況,這種情況所牽涉的問題要更富動態性,同時也更具挑戰性。」

海因裏希補充道:「遊戲的不完全信息特質也給深度強化學習構成了障礙,這一點和圍棋的機制很不一樣。我們有必要克服不完全信息所帶來的問題,因為在解決現實問題時,機器往往需要在不具備完全信息的情況下作出決策。」

數學家非常熱衷於撲克遊戲,他們認為這些遊戲在現實世界中極具代表性。撲克博弈中信息的隱藏性、報酬的傾斜性以及心理等因素在冷戰時期的政治博弈中得到了極大的體現。博弈論正是從撲克牌等遊戲項目中衍生而成,但現在氣候變化和人口性別比例等複雜問題都已經被納入博弈論的範疇。

文章來源 :theguardian,本文由 TECH2IPO / 創見 阮嘉俊 編譯,譯文由創見首發,轉載請註明出處


資料來源:TECH2IPO
標籤: DeepMind  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→