騰訊的 AI 進化了！王者榮耀「絕悟」升級，全英雄池解禁

由雷鋒網於 30/11/2020 發表收藏文章

AI 王者「絕悟」升級了，能達到精通金庸武俠裏所有武功的那種水平。

今天，騰訊宣佈，由騰訊 AI Lab 與王者榮耀聯合研發的策略協作型 AI「絕悟」推出升級版本“絕悟完全體”。

這一升級的背後，則是騰訊策略協作型 AI 算法能力的進一步提升，與之相關的研究也已被 AI 頂級會議 NeurIPS 2020 與頂級期刊 TNNLS 收錄。

https://static.leiphone.com/uploads/new/images/20201128/5fc209a974826.png?imageView2/2/w/740

圖片來源：static.leiphone.com

英雄池完全解禁

在王者榮耀中，若每個職業都有 4 個紫色熟練度英雄，就能解鎖“全能高手”稱號。但受到練習時間與精力限制，很少有人能精通所有英雄，但「絕悟」做到了。

那麼，王者再進化，將有多強？

據瞭解，「絕悟」一年內掌握的英雄數從 1 增加到 100+，王者榮耀英雄池也實現了完全解禁，不但掌握了所有英雄的全部技能，能應對高達 10 的 15 次方的英雄組合數變化，甚至還“自帶軍師”，可做出最佳的英雄博弈策略選擇，綜合自身技能與對手情況等多重因素，派出最優英雄組合。

https://static.leiphone.com/uploads/new/images/20201128/5fc20f9f2dc41.png?imageView2/2/w/740

圖片來源：static.leiphone.com

目前，“絕悟完全體”已在王者榮耀 App 限時開放，玩家都可與之對戰，親身體驗 AI 在複雜策略、團隊協作與微觀操作方面的強大能力。

11 月 14-30 日，「絕悟」在 20 個關卡的能力將不斷提升，最強的 20 級於 11 月 28 日開放，接受 5v5 組隊挑戰。
AI 教練的田忌賽馬術

AI+遊戲研究，是騰訊攻克 AI 的終極研究難題，也是通用人工智能（AGI）的關鍵一步。

騰訊技術團隊的長期目標不僅是讓“絕悟”學會所有英雄的技能，而且每個英雄都要達到頂尖水平，可以根據陣型排列組合打出制勝局。

但難點就在於，「絕悟」的不同英雄會共享一個模型參數，從零學會單個陣容易如反掌，但面對多英雄組合時就難如登天。對戰中，因為地圖龐大且信息不完備，不同的 10 個英雄組合有不同的策略規劃、技能應用、路徑探索及團隊協作方式，這將使決策難度幾何級增加。
同時不可忽略的是“災難性遺忘”問題，模型容易邊學邊忘，這也長期困擾着開發者。

畢竟，一場比賽勝負的關鍵不僅在於擁有頂尖選手，排兵佈陣的教練也非常重要。

基於此，技術團隊為「絕悟」找了一個能排兵佈陣的 AI 教練，也就是在遊戲 BP 環節（禁選英雄）的最優策略。

https://static.leiphone.com/uploads/new/images/20201128/5fc212b90be24.png?imageView2/2/w/740

圖片來源：static.leiphone.com

【絕悟 vs 人類 BP 測試】

受到圍棋 AI 算法的啓發，研究團隊創新地採用了蒙特卡洛樹搜索（MCTS）和神經網絡結合的自動 BP 模型，能夠又快又準地選出具備最大長期價值的英雄。

具體來講，先採用引入“老師分身”模型，每個 AI 老師在單個陣容上訓練至精通，再引入一個 AI 學生模仿學習所有的 AI 老師。

最終，「絕悟」掌握了所有英雄的全部技能，正所謂“少林有七十二藝，功夫既有不同，練習之法，亦必各異。學者苟能盡之，則無敵於世矣。”

「絕悟」手握強兵善用兵

自然，團隊的長期目標，就是要讓「絕悟」手握強兵，且每個英雄都能達到頂尖水平，因此技術上有了三項重點突破：
首先，團隊構建了一個最佳神經網絡模型，讓模型適配 MOBA 類任務、表達能力強、還能對英雄操作精細建模。

模型綜合了大量 AI 方法的優勢，如：

在時序信息上引入長短時記憶網絡（LSTM）優化部分可觀測問題；
在圖像信息上選擇卷積神經網絡（CNN）編碼空間特徵；
用注意力（Attention）方法強化目標選擇；
用動作過濾（Action Mask）方法提升探索效率；
用分層動作設計加快訓練速度；
用多頭值估計（Multi-Head Value）方法降低估計方差。

https://static.leiphone.com/uploads/new/images/20201128/5fc213eda6164.png?imageView2/2/w/740

圖片來源：static.leiphone.com

其次，團隊研究出了拓寬英雄池，讓「絕悟」掌握所有英雄技能的訓練方法——CSPL（Curriculum Self-Play Learning，課程自對弈學習）。
根據下圖可以看出，使用 CSPL 方法擴展英雄池有明顯優勢。

https://static.leiphone.com/uploads/new/images/20201128/5fc214d1d2a4b.png?imageView2/2/w/740

圖片來源：static.leiphone.com

據悉，這是一種讓 AI 從易到難的漸進式學習方法——第一步是挑選多組覆蓋全部英雄池的陣容，在小模型下用強化學習訓練；第二步是蒸餾，把第一步得到的多個模型的能力遷移到同一個大模型中；第三步是隨機陣容的強化訓練，在蒸餾後的大模型裏，隨機挑選陣容繼續強化訓練和微調。

https://static.leiphone.com/uploads/new/images/20201128/5fc2146a20d1e.png?imageView2/2/w/740

圖片來源：static.leiphone.com

最後，團隊搭建了大規模訓練平台騰訊開悟（aiarena.tencent.com），依託項目積累的算法經驗、脱敏數據及騰訊雲的算力資源，為訓練所需的大規模運算保駕護航。

2020 年 8 月，開悟平台對 18 所高校開放，未來希望為更多科研人員提供技術與資源支持，深化課題研究。
早在 2018 年 12 月的 KPL 秋季總決賽中，「絕悟」就曾公開亮相對戰人類玩家。

當時，團隊研發了監督學習（SL）方法，針對大局觀和微操策略同時建模，使得「絕悟」同時擁有優秀的長期規劃和即時操作，達到了非職業玩家的頂尖水平。