最後的防線:目前AI還難以戰勝我們的遊戲

愛玩網百萬稿費活動投稿作者 Quinn,未經授權請勿轉載

2016年的暴雪嘉年華開幕式上,暴雪宣佈與谷歌DeepMind(即Alpha Go的創造者)合作,嘗試開發新一代的人工智能,在《星際爭霸2》中與人類對陣。一石激起千層浪,在圍棋界出盡風頭的人工智能,似乎對目前最經典的RTS系列志在必得。谷歌尚未給這位襁褓中的天才星際選手命名,我們暫且戲謔的稱呼它爲“Alpha SC”。人們最關注的問題是,“Alpha SC”是否可以在電子競技再續輝煌?

答案是,非常可能。

Oriol Vinyals,谷歌搜索科學家,於暴雪嘉年華宣佈DeepMind將挑戰《星際爭霸2》

難道人類,作爲地球上的高等智能生物,在自己的造物面前只能節節敗退,毫無還手之力?那倒不一定。如何打敗Alpha Go,還得先從它的原理說起。相比較國際象棋,圍棋的策略廣度深度,令其一度被噱頭媒體封爲“計算機無法戰勝遊戲”。即使是專業的計算機學家,也曾認爲在2035年之前AI無法拿下圍棋。

然而阿法狗是如何做到的?簡單來說,傳統的圍棋程序靠一個“傻子”瞎猜,例如猜一萬次,每次亂走三步(腦海中假設對手也是亂走的),最後在這一萬次裡選擇結果最好的那一步。聽起來很傻是不是?然而阿法狗之前的圍棋程序就是這麼玩圍棋的。阿法狗的聰明之處在於,額外增加了三個人,我們姑且稱呼它們爲“智者”、“評論家”和“瘋子”。

集“智者”、“評論家”、“瘋子”於一體的藤原佐爲

“智者”學習數萬張高水平棋譜後,告訴傻子,“嗨,兄弟,根據我學習的經驗。你在腦海中推演的時候別亂走,試試走這幾步,對手也不是亂走的,他可能走這、這幾步。”假設傻子打算試一萬次,每次在“智者”的指導下能少走三步,其效率就遠比自己瞎蒙要高。另外,每推演一次,同樣學習了棋譜的“評論家”便會根據推演完的場面給一個分數。推演全部完成後,傻子會在實際棋局中走出評分最高的那一步。看起來很完美是不是?目前截止,計算機做的所有事情全部是基於學習,然而光靠學習是無法打敗師傅的。於是我們引入了“瘋子”。“瘋子”熱愛與自己下棋,於是常常在“智者”的指導下與自己玩的不亦樂乎。每同自己完成一把比賽,“瘋子”便會告訴“智者”:“你指導的黑子贏了,以後多用這些套路。指導的白子輸了,以後少用。”在這種類似叢林法則的弱肉強食中,人類的招式經歷了精煉與變形,令Alpha Go在不斷進步中擁有了戰勝人類的資本。在當時Master的60場比賽中,AI怪招頻出,就要感謝這個“瘋子”。

圖片來源Pixiv(id=55831129,作者:MusyneXSK)

不得不說DeepMind在選擇遊戲上是相當聰明的。既然知道了阿法狗的原理,再來看看人類在《星際爭霸2》中爲何毫無勝算

1、APM,電子遊戲作爲AI的主場,它的優勢無疑是巨大的。接近無限的APM讓其戰勝人類變得異乎簡單。暴雪曾經制作出一個擁有一萬APM的AI,甚至可以用100只小狗全殲20輛攻城坦克,而同樣的情況下,職業玩家只能做到1-2輛。強大的微操能力讓計算機可以輕易打贏數倍於己的人類玩家。雖然谷歌答應會對APM進行限制,然而限制多少,一分鐘一次點擊?還是三百,一千?從某種程度上來說AI已經贏了,區別只是,谷歌爸爸讓不讓他贏。

2、《星際爭霸2》在開始接觸敵人前,變數不大,相對計算機來說不難學習。起建築、造兵、開分礦。規律性較強。這部分降低了決策深度。

3、隨機情況較少,局部\全局最優解的分佈較集中,讓“智者”更容易給出最優答案。

4、對局記錄豐富,易於計算機學習。

《星際爭霸2》目前2000APM的AI,可以讓100只小狗瞬間散成一圈

存在人工智能hold不住的遊戲嗎?

要找出電腦無法hold住的遊戲,首先得明白“何種特質”的遊戲難以被阿法狗掌握。

1、首先我們排除需要反應力、APM、點擊精準度的遊戲。即時策略、FPS、格鬥類、MOBA類都可以排除。這些是計算機的絕對強項,其反應速度是人類的上百倍,點擊精確度甚至可以精確到像素,躲技能的判斷更是精確到毫秒,人類毫無勝算。

2、決策的深度和廣度都必須保證。這一點爲難了“傻子”。假設有一百個坑,只有一個裝了蘿蔔原本“傻子”試五十個坑就有大概率找到蘿蔔,現在把坑增加到一萬個,“傻子”只有傻眼了,要麼它增加嘗試的次數,要麼只能降低找到正確坑的概率。

3、遊戲最好具有一定的隨機性。打個比較極端的例子,如果我們和計算機玩猜拳,贏電腦其實相當簡單。因爲完全隨機讓最優解的分佈分散了,換句話說,每一個決定都是三分之一的勝率,機器無法學習到對自己最優的方案。當在遊戲中加入較多的隨機因素後,“智者”更難找到最佳策略。同樣,“瘋子”的效率也降低了——它左手贏,可能只是因爲運氣好而已,而事實上右手纔是最佳策略,卻因運氣輸掉了遊戲,導致瘋子更難判定左右手的優劣。

4、每一局遊戲差異性越大,越不利於計算機學習。回到《星際爭霸》,假設我們有一千個種族,幾乎每一把職業比賽對決,都是不同種族之間的對決。對職業選手來說,大致想一下對方可能用的策略,便能從容比賽。而對於計算機來說,每一種種族間的比賽都只有1-2個樣本可以學習,現在輪到“智者”和“評論家”蛋疼了。學習樣本不夠,每次“傻子”來問問題,見識短淺的“智者”只能亂給一個答案,而“評論家”打起分來,也彷彿TGA評委附體。現場根本控制不住。

5、即時性。由於“傻子”推演,“評論家”評分,“智者”思索對策都需要時間。當時間不夠時,原本準備推演一萬次的“傻子”,只能推演五千次遍要草草做決定。決策的質量自然是要打個折扣。

結合以上四點,幾款遊戲便呼之欲出了。

1、爐石傳說

《爐石傳說》相較於萬智牌,擁有較高的隨機性,蒙特卡洛搜索樹的反饋難以讓決策收斂於局部最優解。同時每一局的差異性巨大,讓同樣的對局不可能發生兩次,也加大了計算機的學習難度。另外如果把組牌也算成遊戲過程的話,創新牌組對於阿法狗來說幾乎不可能。它的自學習網絡難以應付如此龐大的組牌可能性,尤其是在對局擁有如此多的隨機因素的情況下。即使它克服了全部的困難,由於對方的牌組未知,它依舊難以評估最應該打的牌。同時回合制也讓它最擅長的微操毫無用武之處。

歐陸風雲》、《維多利亞》、《十字軍之王》系列

P社四萌中的三款。爲什麼唯獨不包括《鋼鐵雄心》,因爲《鋼鐵雄心》簡化了經濟與外交,專注於戰鬥系統。首先需要考慮的面就窄了很多,其次戰鬥系統對微操的依賴給了計算機相當大的優勢,可能在策略上處於弱勢,但計算機依舊可以用微操扳回劣勢。

而《歐陸風雲》、《維多利亞》、《十字軍之王》系列,雖然複雜度各有高低,但涵蓋面廣,支系統複雜,各個系統之間相互作用說不清道不明,牽一髮而動全身,對於計算機來說想要計算每一個決策的分值,將會相當困難。另外狀態繁多,輸入哪些數值給計算機用作決策參考,對於DeepMind來說也是相當複雜。並列爲最不可能被計算機掌握的遊戲之一。

《R.U.S.E》

育碧發行的即時戰略遊戲,也是上榜的唯一一款RTS。正如育碧宣傳的,《R.U.S.E》故意簡化了操作,讓玩家可以從繁瑣的微操中解脫出來,而專注於大局策略。遊戲中,玩家可以將部隊隱藏在樹林中、或城市裡。一旦成功組織一次埋伏,數倍於己的軍隊也將頃刻被消滅。另外遊戲加了計策系統,例如無線電靜默,可以讓該區域無法被對方看到。間諜網則反過來,揭示該區域部隊一段時間。

有的計策還可以組織木製坦克,來一次佯攻。甚至可以起假基地,誘騙電腦進攻。衆所周知,計算機是相當好騙的。只要僞裝的足夠像,阿法狗也會真假難辨,進而落入玩家精心編織的陷阱。一場蓄謀已久的決戰,便可一錘定音。

《坦克世界

《坦克世界》勝在每局的差異性,和過高的決策寬度,複雜且瞬息萬變的戰場態勢,以及對微操的低依賴性。每一局都完全不一樣的敵我陣容,以及多達上百輛自己可能使用的坦克,讓學習異常困難。另外花樣百出的敵我坦克站在各個不同的地方都會對決策產生影響,戰場還是瞬息萬變的,這對阿法狗來說,根本不可能在短時間內完成如此複雜的決策。同樣的,遊戲對微操依賴性不強,APM上萬依舊然並卵。

魔獸世界:軍團再臨》

相比較其他RPG,《魔獸世界》實在是太龐大了,系統十分的複雜。即使現有機器學習算法已經可以理解NPC對話與劇情中的基本關係,但是龐大的背景和複雜的系統,依舊讓AI無所適從。

計算機除了可以在PvP戰勝人類外,無法順利遊玩絕大部分WoW內容。我相信若有一天計算機征服了WoW,那麼可以在真實社會學習、生活,處理複雜難題的機器人也指日可待了(當然,這個時候還是把機器人的“PvP”系統刪掉比較好)。

《五星上將》系列

該系列瞭解的童鞋可能不多,代表作爲《裝甲元帥》系列。遊戲模擬了某一時期的戰場,特點是囊括了該時期上百種大量武器裝備,上至各類戰機,下至架橋工程部隊無所不包,是軍事迷必玩的遊戲。每種單位的屬性多達21種,地形也會對戰場產生各種影響,天氣也讓戰局充滿着不確定性——例如下雨後地面會變得泥濘,這對步行單位來說將是場災難。

複雜的地形、單位,以及不確定的天氣,讓這款遊戲相當真實地模擬了戰場環境,也讓計算機難以應付如此複雜的情況。另外不得不提的是,《五星上將》另一部作品,《人民的將軍》的主角便是中國,玩家可以指揮諸如99式主戰坦克、武直9、85榴這樣的國產武器,在虛擬的棋盤上與世界各國來一場頗具真實感的較量。

在《人民的將軍》中,玩家可以操控ZTZ85、ZTZ99等等遊戲中並不常見的我軍裝備

推理類遊戲(例如《逆轉裁判》、《彈丸論破》系列)

很多推理對人類來說相當簡單,對計算機來說卻是極其困難的。自然語言學習已經可以提煉出人類話語中基本的邏輯(譬如我前面說的那句話,在計算機看來便是“人類-推理-簡單,計算機-推理-難”),要找出遊戲中的邏輯漏洞,經常需要人類生活中方方面面的常識——藝術、社會等等。

關於自然語言中命題邏輯的推理,目前也鮮有看見這方面的科研成果。此類遊戲,以人類目前公開的知識水平,計算機只有用窮舉法來通關,即點擊每一個可能的對話選項,調查地圖上每一個地點。顯然的,通關速度將明顯慢於人類。

《無盡傳奇》&《太空帝國4》

兩款4X遊戲很相似,因此拿到一塊來說。極豐富的內容,近乎無窮的狀態變量,還有非常高的隨機性,花樣百出的任務,近乎無限的科技搭配,眼花繚亂的種族,功能各異的幾十種兵種,更別提這些兵種還能自由搭配裝備。種種這些,甚至直接讓這兩款遊戲無法被計算機學習。

玩家常常抱怨《無盡傳奇》的AI太傻。至於《太空帝國》這邊,AI唯一技能就是到處亂竄,在銀河系中示範近乎完美的布朗運動。對此我想說製作組真的盡力了,即使是阿法狗來做這遊戲的AI,智商多半還不如現有的傳統AI。況且內容如此豐富的遊戲,即使只有自己一個人玩,也可以樂趣無窮,不是嗎?

上述說的幾款遊戲,除非計算機性能出現爆炸式的提升,或者有新的更神奇的算法出現,他們都難以被AI掌握。至少在20年內,玩這些遊戲還是我們人類的“專利”。然而技術在不斷進步,沒有永遠無法攻破的堡壘。只是筆者不禁的猜想,在未來,當所有遊戲的陣地皆被AI拿下時,昔日萬靈之長手中驕傲的資本空空如也,卻握着世界上最偉大的智能造物,我們的後代,到底是喜是憂?

然而計算機的想法估計很簡單:這麼弱?我可能認了個假爸爸。

本文所有關於Alpha Go原理性的描述,均基於DeepMind項目組2016年1月發表於《Nature》的論文《Mastering the Game of Go with Deep Neural Networks and Tree Search》,不對最新改進版Master負責。

歡迎參加——愛玩網百萬稿費徵稿活動:當金牌作者,開本站專欄,領豐厚稿費,得專屬周邊!

遊戲專欄投稿信箱:otaku@vip.163.com

歡迎關注愛玩APP【精選】板塊,更多精彩等着你!