☰

最後的防線：目前AI還難以戰勝我們的遊戲

愛玩網百萬稿費活動投稿，作者 Quinn，未經授權請勿轉載

2016年的暴雪嘉年華開幕式上，暴雪宣佈與谷歌DeepMind（即Alpha Go的創造者）合作，嘗試開發新一代的人工智能，在《星際爭霸2》中與人類對陣。一石激起千層浪，在圍棋界出盡風頭的人工智能，似乎對目前最經典的RTS系列志在必得。谷歌尚未給這位襁褓中的天才星際選手命名，我們暫且戲謔的稱呼它爲“Alpha SC”。人們最關注的問題是，“Alpha SC”是否可以在電子競技再續輝煌？

答案是，非常可能。

Oriol Vinyals，谷歌搜索科學家，於暴雪嘉年華宣佈DeepMind將挑戰《星際爭霸2》

難道人類，作爲地球上的高等智能生物，在自己的造物面前只能節節敗退，毫無還手之力？那倒不一定。如何打敗Alpha Go，還得先從它的原理說起。相比較國際象棋，圍棋的策略廣度與深度，令其一度被噱頭媒體封爲“計算機無法戰勝的遊戲”。即使是專業的計算機學家，也曾認爲在2035年之前AI無法拿下圍棋。

然而阿法狗是如何做到的？簡單來說，傳統的圍棋程序靠一個“傻子”瞎猜，例如猜一萬次，每次亂走三步（腦海中假設對手也是亂走的），最後在這一萬次裡選擇結果最好的那一步。聽起來很傻是不是？然而阿法狗之前的圍棋程序就是這麼玩圍棋的。阿法狗的聰明之處在於，額外增加了三個人，我們姑且稱呼它們爲“智者”、“評論家”和“瘋子”。

集“智者”、“評論家”、“瘋子”於一體的藤原佐爲

“智者”學習數萬張高水平棋譜後，告訴傻子，“嗨，兄弟，根據我學習的經驗。你在腦海中推演的時候別亂走，試試走這幾步，對手也不是亂走的，他可能走這、這幾步。”假設傻子打算試一萬次，每次在“智者”的指導下能少走三步，其效率就遠比自己瞎蒙要高。另外，每推演一次，同樣學習了棋譜的“評論家”便會根據推演完的場面給一個分數。推演全部完成後，傻子會在實際棋局中走出評分最高的那一步。看起來很完美是不是？目前截止，計算機做的所有事情全部是基於學習，然而光靠學習是無法打敗師傅的。於是我們引入了“瘋子”。“瘋子”熱愛與自己下棋，於是常常在“智者”的指導下與自己玩的不亦樂乎。每同自己完成一把比賽，“瘋子”便會告訴“智者”：“你指導的黑子贏了，以後多用這些套路。指導的白子輸了，以後少用。”在這種類似叢林法則的弱肉強食中，人類的招式經歷了精煉與變形，令Alpha Go在不斷進步中擁有了戰勝人類的資本。在當時Master的60場比賽中，AI怪招頻出，就要感謝這個“瘋子”。

圖片來源Pixiv（id=55831129，作者：MusyneXSK）

不得不說DeepMind在選擇遊戲上是相當聰明的。既然知道了阿法狗的原理，再來看看人類在《星際爭霸2》中爲何毫無勝算。

1、APM，電子遊戲作爲AI的主場，它的優勢無疑是巨大的。接近無限的APM讓其戰勝人類變得異乎簡單。暴雪曾經制作出一個擁有一萬APM的AI，甚至可以用100只小狗全殲20輛攻城坦克，而同樣的情況下，職業玩家只能做到1-2輛。強大的微操能力讓計算機可以輕易打贏數倍於己的人類玩家。雖然谷歌答應會對APM進行限制，然而限制多少，一分鐘一次點擊？還是三百，一千？從某種程度上來說AI已經贏了，區別只是，谷歌爸爸讓不讓他贏。

2、《星際爭霸2》在開始接觸敵人前，變數不大，相對計算機來說不難學習。起建築、造兵、開分礦。規律性較強。這部分降低了決策深度。

3、隨機情況較少，局部\全局最優解的分佈較集中，讓“智者”更容易給出最優答案。

4、對局記錄豐富，易於計算機學習。

《星際爭霸2》目前2000APM的AI，可以讓100只小狗瞬間散成一圈

存在人工智能hold不住的遊戲嗎？

要找出電腦無法hold住的遊戲，首先得明白“何種特質”的遊戲難以被阿法狗掌握。

1、首先我們排除需要反應力、APM、點擊精準度的遊戲。即時策略、FPS、格鬥類、MOBA類都可以排除。這些是計算機的絕對強項，其反應速度是人類的上百倍，點擊精確度甚至可以精確到像素，躲技能的判斷更是精確到毫秒，人類毫無勝算。

2、決策的深度和廣度都必須保證。這一點爲難了“傻子”。假設有一百個坑，只有一個裝了蘿蔔。原本“傻子”試五十個坑就有大概率找到蘿蔔，現在把坑增加到一萬個，“傻子”只有傻眼了，要麼它增加嘗試的次數，要麼只能降低找到正確坑的概率。

3、遊戲最好具有一定的隨機性。打個比較極端的例子，如果我們和計算機玩猜拳，贏電腦其實相當簡單。因爲完全隨機讓最優解的分佈分散了，換句話說，每一個決定都是三分之一的勝率，機器無法學習到對自己最優的方案。當在遊戲中加入較多的隨機因素後，“智者”更難找到最佳策略。同樣，“瘋子”的效率也降低了——它左手贏，可能只是因爲運氣好而已，而事實上右手纔是最佳策略，卻因運氣輸掉了遊戲，導致瘋子更難判定左右手的優劣。

4、每一局遊戲差異性越大，越不利於計算機學習。回到《星際爭霸》，假設我們有一千個種族，幾乎每一把職業比賽對決，都是不同種族之間的對決。對職業選手來說，大致想一下對方可能用的策略，便能從容比賽。而對於計算機來說，每一種種族間的比賽都只有1-2個樣本可以學習，現在輪到“智者”和“評論家”蛋疼了。學習樣本不夠，每次“傻子”來問問題，見識短淺的“智者”只能亂給一個答案，而“評論家”打起分來，也彷彿TGA評委附體。現場根本控制不住。

5、即時性。由於“傻子”推演，“評論家”評分，“智者”思索對策都需要時間。當時間不夠時，原本準備推演一萬次的“傻子”，只能推演五千次遍要草草做決定。決策的質量自然是要打個折扣。

結合以上四點，幾款遊戲便呼之欲出了。

1、爐石傳說

《爐石傳說》相較於萬智牌，擁有較高的隨機性，蒙特卡洛搜索樹的反饋難以讓決策收斂於局部最優解。同時每一局的差異性巨大，讓同樣的對局不可能發生兩次，也加大了計算機的學習難度。另外如果把組牌也算成遊戲過程的話，創新牌組對於阿法狗來說幾乎不可能。它的自學習網絡難以應付如此龐大的組牌可能性，尤其是在對局擁有如此多的隨機因素的情況下。即使它克服了全部的困難，由於對方的牌組未知，它依舊難以評估最應該打的牌。同時回合制也讓它最擅長的微操毫無用武之處。

《歐陸風雲》、《維多利亞》、《十字軍之王》系列

P社四萌中的三款。爲什麼唯獨不包括《鋼鐵雄心》，因爲《鋼鐵雄心》簡化了經濟與外交，專注於戰鬥系統。首先需要考慮的面就窄了很多，其次戰鬥系統對微操的依賴給了計算機相當大的優勢，可能在策略上處於弱勢，但計算機依舊可以用微操扳回劣勢。

而《歐陸風雲》、《維多利亞》、《十字軍之王》系列，雖然複雜度各有高低，但涵蓋面廣，支系統複雜，各個系統之間相互作用說不清道不明，牽一髮而動全身，對於計算機來說想要計算每一個決策的分值，將會相當困難。另外狀態繁多，輸入哪些數值給計算機用作決策參考，對於DeepMind來說也是相當複雜。並列爲最不可能被計算機掌握的遊戲之一。

《R.U.S.E》

育碧發行的即時戰略遊戲，也是上榜的唯一一款RTS。正如育碧宣傳的，《R.U.S.E》故意簡化了操作，讓玩家可以從繁瑣的微操中解脫出來，而專注於大局策略。遊戲中，玩家可以將部隊隱藏在樹林中、或城市裡。一旦成功組織一次埋伏，數倍於己的軍隊也將頃刻被消滅。另外遊戲加了計策系統，例如無線電靜默，可以讓該區域無法被對方看到。間諜網則反過來，揭示該區域部隊一段時間。

有的計策還可以組織木製坦克，來一次佯攻。甚至可以起假基地，誘騙電腦進攻。衆所周知，計算機是相當好騙的。只要僞裝的足夠像，阿法狗也會真假難辨，進而落入玩家精心編織的陷阱。一場蓄謀已久的決戰，便可一錘定音。

《坦克世界》

《坦克世界》勝在每局的差異性，和過高的決策寬度，複雜且瞬息萬變的戰場態勢，以及對微操的低依賴性。每一局都完全不一樣的敵我陣容，以及多達上百輛自己可能使用的坦克，讓學習異常困難。另外花樣百出的敵我坦克站在各個不同的地方都會對決策產生影響，戰場還是瞬息萬變的，這對阿法狗來說，根本不可能在短時間內完成如此複雜的決策。同樣的，遊戲對微操依賴性不強，APM上萬依舊然並卵。

《魔獸世界：軍團再臨》

相比較其他RPG，《魔獸世界》實在是太龐大了，系統十分的複雜。即使現有機器學習算法已經可以理解NPC對話與劇情中的基本關係，但是龐大的背景和複雜的系統，依舊讓AI無所適從。

計算機除了可以在PvP戰勝人類外，無法順利遊玩絕大部分WoW內容。我相信若有一天計算機征服了WoW，那麼可以在真實社會學習、生活，處理複雜難題的機器人也指日可待了（當然，這個時候還是把機器人的“PvP”系統刪掉比較好）。

《五星上將》系列

該系列瞭解的童鞋可能不多，代表作爲《裝甲元帥》系列。遊戲模擬了某一時期的戰場，特點是囊括了該時期上百種大量武器裝備，上至各類戰機，下至架橋工程部隊無所不包，是軍事迷必玩的遊戲。每種單位的屬性多達21種，地形也會對戰場產生各種影響，天氣也讓戰局充滿着不確定性——例如下雨後地面會變得泥濘，這對步行單位來說將是場災難。

複雜的地形、單位，以及不確定的天氣，讓這款遊戲相當真實地模擬了戰場環境，也讓計算機難以應付如此複雜的情況。另外不得不提的是，《五星上將》另一部作品，《人民的將軍》的主角便是中國，玩家可以指揮諸如99式主戰坦克、武直9、85榴這樣的國產武器，在虛擬的棋盤上與世界各國來一場頗具真實感的較量。

在《人民的將軍》中，玩家可以操控ZTZ85、ZTZ99等等遊戲中並不常見的我軍裝備

推理類遊戲（例如《逆轉裁判》、《彈丸論破》系列）

很多推理對人類來說相當簡單，對計算機來說卻是極其困難的。自然語言學習已經可以提煉出人類話語中基本的邏輯（譬如我前面說的那句話，在計算機看來便是“人類-推理-簡單，計算機-推理-難”），要找出遊戲中的邏輯漏洞，經常需要人類生活中方方面面的常識——藝術、社會等等。

關於自然語言中命題邏輯的推理，目前也鮮有看見這方面的科研成果。此類遊戲，以人類目前公開的知識水平，計算機只有用窮舉法來通關，即點擊每一個可能的對話選項，調查地圖上每一個地點。顯然的，通關速度將明顯慢於人類。

《無盡傳奇》&《太空帝國4》

兩款4X遊戲很相似，因此拿到一塊來說。極豐富的內容，近乎無窮的狀態變量，還有非常高的隨機性，花樣百出的任務，近乎無限的科技搭配，眼花繚亂的種族，功能各異的幾十種兵種，更別提這些兵種還能自由搭配裝備。種種這些，甚至直接讓這兩款遊戲無法被計算機學習。

玩家常常抱怨《無盡傳奇》的AI太傻。至於《太空帝國》這邊，AI唯一技能就是到處亂竄，在銀河系中示範近乎完美的布朗運動。對此我想說製作組真的盡力了，即使是阿法狗來做這遊戲的AI，智商多半還不如現有的傳統AI。況且內容如此豐富的遊戲，即使只有自己一個人玩，也可以樂趣無窮，不是嗎？

上述說的幾款遊戲，除非計算機性能出現爆炸式的提升，或者有新的更神奇的算法出現，他們都難以被AI掌握。至少在20年內，玩這些遊戲還是我們人類的“專利”。然而技術在不斷進步，沒有永遠無法攻破的堡壘。只是筆者不禁的猜想，在未來，當所有遊戲的陣地皆被AI拿下時，昔日萬靈之長手中驕傲的資本空空如也，卻握着世界上最偉大的智能造物，我們的後代，到底是喜是憂？

然而計算機的想法估計很簡單：這麼弱？我可能認了個假爸爸。

本文所有關於Alpha Go原理性的描述，均基於DeepMind項目組2016年1月發表於《Nature》的論文《Mastering the Game of Go with Deep Neural Networks and Tree Search》，不對最新改進版Master負責。

歡迎參加——愛玩網百萬稿費徵稿活動：當金牌作者，開本站專欄，領豐厚稿費，得專屬周邊！

遊戲專欄投稿信箱：otaku@vip.163.com

歡迎關注愛玩APP【精選】板塊，更多精彩等着你！

最後的防線：目前AI還難以戰勝我們的遊戲

相關資訊