AlphaGo新算法仍有一大弱點柯潔不要被它嚇倒

來源:觀察者網(wǎng) 2017-01-10 10:02 http://www.d-black.cn/ 海峽都市報電子版

　　AlphaGo團隊的正式聲明

　　[文/觀察者網(wǎng)專欄作者陳經(jīng)]

　　2016年12月29日至2017年1月4日，谷歌AlphaGo的升級版本以Master為名，在弈城圍棋網(wǎng)和野狐圍棋網(wǎng)的快棋比賽中對人類最高水平的選手取得了60：0的壓倒戰(zhàn)績，再次讓人們對圍棋AI的實力感到震驚。

　　之前《自然》論文對AlphaGo的算法進行了非常細致的介紹，世界各地不少研發(fā)團隊根據(jù)這個論文進行了圍棋AI的開發(fā)。其中進展最大的應(yīng)該是騰訊開發(fā)的 “刑天”（以及之前的版本“絕藝”），職業(yè)棋手和棋迷們感覺它的實力達到了2016年3月與李世石對戰(zhàn)的AlphaGo版本。但是經(jīng)過近一年的升級，Master的實力顯然比之前版本要強得多，它背后的算法演變成什么樣了，卻幾乎沒有資料。本文對AlphaGo的升級后的算法框架進行深入的分析與猜測，試圖從計算機算法角度揭開它的神秘面紗一角。

　　在1月4日AlphaGo團隊的正式聲明中，Deepmind提到了“our new prototype version（我們新的原型版本）”。prototype這個詞在軟件工程領(lǐng)域一般對應(yīng)一個新的算法框架，并不是簡單的性能升級，可能是算法原理級的改變。由于資料極少，我只能根據(jù)很少的一些信息，以及Master的實戰(zhàn)表現(xiàn)對此進行分析與猜測。

　　下文中，我們將2015年10月戰(zhàn)勝樊麾二段的AlphaGo版本稱為V13，將2016年3月戰(zhàn)勝李世石的版本稱為V18，將升級后在網(wǎng)絡(luò)上60：0戰(zhàn)勝人類高手群體的版本稱為V25（這個版本Deepmind內(nèi)部應(yīng)該有不同的稱呼）。

　　V13與V25：從廖化到關(guān)羽

　　版本V13的戰(zhàn)績是，正式的慢棋5：0勝樊麾，棋譜公布了，非正式的快棋3：2勝樊麾，棋譜未公布。樊麾非正式快棋勝了兩局，這說明版本V13的快棋實力并不是太強。

　　版本V18的戰(zhàn)績是，每方2小時3次1分鐘讀秒的慢棋，以4：1勝李世石。比賽中AlphaGo以非常穩(wěn)定的1分鐘1步的節(jié)奏下棋。比賽用的分布式機器有1202個CPU和176個GPU，據(jù)說每下一局光電費就要3000美元。

　　版本V25的戰(zhàn)績是，Master以60：0戰(zhàn)勝30多位人類棋手，包括排名前20位的所有棋手。比賽大部分是3次30秒讀秒的快棋，開始10多局人們關(guān) 注不多時是20秒讀秒用時更短，僅有一次60秒讀秒是照顧年過六旬的聶衛(wèi)平。比賽中Master每步幾乎都在8秒以內(nèi)落子，從未用掉過讀秒（除了一次意外掉線），所以20秒或者30秒對機器是一回事。在KGS上天元開局三局虐殺ZEN的GodMoves很可能也是版本V25，這三局也是快棋，GodMoves每步都是幾秒，用時只有ZEN的一半。

　　可以看出，版本V13的快棋實力不強。而版本V18的快棋實力應(yīng)該也不如慢棋，谷歌為了確保勝利，用了分布式的版本而非48個CPU與8個GPU的單機版，還用了每步1分鐘這種在AI中算多的每步用時。在比賽中，有時AlphaGo的剩余用時甚至比李世石少了。應(yīng)該說這時的AlphaGo版本有堆機器提升棋力的感覺，和IBM在1997年與卡斯帕羅夫的國際象棋人機大戰(zhàn)時的做法類似。

　　但是版本V25在比賽用時上進步很大，每步8秒比版本V18快了六七倍，而棋力卻提升很大?？聺嵟c樸廷桓在30秒用時的比賽中能多次戰(zhàn)勝與版本V18實力相當(dāng)?shù)男烫?，同樣的用時對Master幾盤中卻毫無機會。應(yīng)該說版本V25在用時大大減少的同時還取得了棋力巨大的進步，這是雙重的進步，一定是因為算法原理有了突破，絕對不是靠提升機器性能。而這與國際像棋AI的進步過程有些類似。

　　IBM在人機大戰(zhàn)中戰(zhàn)勝卡斯帕羅夫后解散了團隊不玩了，但其它研究者繼續(xù)開發(fā)國際象棋AI取得了巨大的進步。后來算法越做越厲害，最厲害的程序能讓人類最高水平的棋手一個兵或者兩先。水平極高的國際象棋AI不少，其中一個是鱈魚（stockfish），由許多開發(fā)者集體開發(fā)，攻殺凌厲，受到愛好者追捧。

　　另一個是變色龍（Komodo），由一個國際象棋大師和一個程序員開發(fā)，理論體系嚴謹，攻防穩(wěn)健。AI互相對局比人類多得多，二者對下100盤，變色龍以 9勝89平2負領(lǐng)先人氣高的鱈魚。因為AI在平常的手機上都可以戰(zhàn)勝人類最高水平的棋手，國際象棋（以及類似的中國象棋）都禁止棋手使用手機，曾經(jīng)有棋手頻繁上廁所看手機被抓禁賽。國際象棋AI在棋力以及計算性能上都取得了巨大的進步，運算平臺從特別造的大型服務(wù)器移到了人人都有的手機上。

　　局面評估函數(shù)的作用

　　從算法上來說，高水平國際象棋AI的關(guān)鍵是人工植入的一些國際象棋相關(guān)的領(lǐng)域知識，加上傳統(tǒng)的計算機搜索高效剪枝算法。值得注意的是，AlphaGo以及之前所有高水平AI如ZEN和CrazyStone都采用MCTS（蒙特卡洛樹形搜索），而最高水平的國際象棋AI是不用的。MCTS是 CrazyStone的作者法國人Remi Coulom 在2006年最先提出的，是上一次圍棋人工智能算法取得巨大進步能夠戰(zhàn)勝一般業(yè)余棋手的關(guān)鍵技術(shù)突破。

　　但MCTS其實是傳統(tǒng)搜索技術(shù)沒有辦法解決圍棋問題時，想出來的變通辦法，并不是說它比傳統(tǒng)搜索技術(shù)更先進。實際MCTS隨機模擬，并不是太嚴謹，它是成千上萬次模擬，每次模擬都下至終局數(shù)子確定勝負統(tǒng)計各種選擇的勝率。這是一個對人類棋手來說相當(dāng)不自然的方法，可以預(yù)期人類絕對不會用這種辦法去下棋。

　　國際象棋也可以用MCTS去做，但沒有必要。谷歌團隊有人用深度學(xué)習(xí)和MCTS做了國際象棋程序，但是棋力僅僅是國際大師，并沒有特別厲害。高水平國際象棋算法的核心技術(shù)，是極為精細的“局面評估函數(shù)”。而這早在幾十年前，就是人工智能博弈算法的核心問題。國際象棋的局面評估函數(shù)很好理解，基本想法是對皇后、車、馬、象、兵根據(jù)戰(zhàn)斗力大小給出不同的分值，對王給出一個超級大的分值死了就是最差的局面。一個局面就是棋子的分值和。

　　但這只是最原始的想法，子力的搭配、兵陣的形狀、棋子的位置更為關(guān)鍵，象棋中的棄子攻殺極為常見。這需要國際象棋專業(yè)人士進行極為專業(yè)細致的估值調(diào)整。國際象棋AI的水平高低基本由它的局面評估函數(shù)決定。有了好用的局面評估函數(shù)以后，再以此為基礎(chǔ)，展開一個你一步我一步的指數(shù)擴展的博弈搜索樹。在這個搜索樹上，利用每個局面計算出來的分值，進行一些專業(yè)的高效率“剪枝”（如Alpha-Beta剪枝算法）操作，縮小樹的規(guī)模，用有限的計算資源盡可能地搜索更多的棋步，又不發(fā)生漏算。

　　圖為搜索樹示例，方塊和圓圈是兩個對手，每一條線代表下出一招。局面評估后，棋手要遵守MIN-MAX的原則，要“誠實”地認為對手能下出最強應(yīng)對再去想自己的招。有局面評估分數(shù)的葉子節(jié)點其實不用都搜索到，因為理論上有剪枝算法證明不用搜索了。如一下被人吃掉一個大子，又得不到補償?shù)姆种筒挥美^續(xù)往下推了。這些搜索技術(shù)發(fā)展到很復(fù)雜了，但都屬于傳統(tǒng)的搜索技術(shù)，是人可以信服的邏輯。

　　國際象棋與中國象棋AI發(fā)展到水平很高后，棋手們真的感覺到了電腦的深不可測，就是有時電腦會下出人類難于理解的“AI棋”。人類對手互相下，出了招以后，人就會想對手這是想干什么，水平相當(dāng)?shù)膶κ肿屑毸伎己罂偸悄馨l(fā)現(xiàn)對手的戰(zhàn)術(shù)意圖，如設(shè)個套雙吃對手的馬和車，如果對手防著了，就能吃個兵。而“AI 棋”的特征是，它背后并不是一條或者少數(shù)幾條戰(zhàn)術(shù)意圖，而是有一個龐大的搜索樹支持，人類對手作出任何應(yīng)對，它都能在幾手、十幾手后占得優(yōu)勢，整個戰(zhàn)略并不能用幾句話解釋清楚，可能需要寫一篇幾千字的文章。

　　這種“AI棋”要思考非常周密深遠，人類選手很難下出來。近年來中國象棋成績最好的是王天一，他的棋藝特點就是主動用軟件進行訓(xùn)練，和上一輩高手方法不同。王天一下出來的招有時就象AI，以致于有些高手風(fēng)言風(fēng)語影射他用軟件作弊引發(fā)風(fēng)波，我認為應(yīng)該是訓(xùn)練方法不同導(dǎo)致的。國際象棋界對軟件的重視與應(yīng)用比中國象棋界要強得多，重大比賽時，一堆人用軟件分析雙方的著手好壞，直接作為判據(jù)，增加了比賽的可看性。

　　軟件能下出“AI棋”，是因為經(jīng)過硬件以及算法的持續(xù)提升，程序的搜索能力終于突破了人類的腦力限制，經(jīng)過高效剪枝后，幾千萬次搜索可以連續(xù)推理多步并覆蓋各個分枝，在深度與廣度方面都超過人類，可以說搜索能力已經(jīng)超過人類。

　　其實最初的圍棋AI也是用這個思路開發(fā)的，也是建立搜索樹，在葉子節(jié)點上搞局面評估函數(shù)計算。但是圍棋的評估函數(shù)特別難搞，初級的程序一般用黑白子對周邊空點的“控制力”之類的原始邏輯進行估值，差錯特別大，估值極為離譜，棋力極低。無論怎么人工加調(diào)整，也搞不好，各種棋形實在是太復(fù)雜。很長時間圍棋AI 沒有實質(zhì)進步，受限于評估函數(shù)極差的能力，搜索能力極差。

　　實在是沒有辦法了，才搞出MCTS這種非自然的隨機下至終局統(tǒng)計勝率的辦法。MCTS部分解決了估值精確性問題，因為下到終局數(shù)子是準確的，只要模擬的次數(shù)足夠多，有理論證明可以逼近最優(yōu)解。用這種變通的辦法繞開了局面評估這個博弈搜索的核心問題。以此為基礎(chǔ)，以ZEN為代表的幾個程序，在根據(jù)棋形走子選點上下了苦功，終于取得了棋力突破，能夠戰(zhàn)勝一般業(yè)余棋手。

　　接下來自然的發(fā)展就是用深度學(xué)習(xí)對人類高手的選點直覺建模，就是“策略網(wǎng)絡(luò)”。這次突破引入了機器學(xué)習(xí)技術(shù)，不需要開發(fā)者辛苦寫代碼了，高水平圍棋AI的開發(fā)變?nèi)菀琢?。即使這樣，由于評估函數(shù)沒有取得突破，仍然需要MCTS來進行勝率統(tǒng)計，棋力仍然受限，只相當(dāng)于業(yè)余高手。

　　“價值網(wǎng)絡(luò)”橫空出世

　　AlphaGo在局面評估函數(shù)上作出了嘗試性的創(chuàng)新，用深度學(xué)習(xí)技術(shù)開發(fā)出了“價值網(wǎng)絡(luò)”。它的特點是，局面評分也是勝率，而不是領(lǐng)先多少目這種較為自然的優(yōu)勢計算。但是從《自然》論文以及版本V13與V18的表現(xiàn)來看，這時的價值網(wǎng)絡(luò)并不是太準確，不能單獨使用，應(yīng) 該是一個經(jīng)常出錯的函數(shù)。論文中提到，葉子節(jié)點勝率評估是把價值網(wǎng)絡(luò)和MCTS下至終局混合使用，各占0.5權(quán)重。這個意思是說，AlphaGo會象國際象棋搜索算法一樣，展開一個葉子節(jié)點很多的樹。

　　在葉子節(jié)點上，用價值網(wǎng)絡(luò)算出一個勝率，再從葉子節(jié)點開始黑白雙方一直輪流走子終局得出勝負。兩者都要參考，0.5是一個經(jīng)驗性的數(shù)據(jù)，這樣棋力最高。這其實是一個權(quán)宜之計，價值網(wǎng)絡(luò)會出錯，模擬走子終局也并不可靠，通過混合想互相彌補一下，但并不能解決太多問題。最終棋力還是需要靠MCTS海量模擬試錯，模擬到新的關(guān)鍵分枝提升棋力。所以版本V18特別需要海量計算，每步需要的時間相對長，需要的CPU與GPU個數(shù)也不少，谷歌甚至開發(fā)了特別的TPU 進行深度神經(jīng)網(wǎng)絡(luò)并行計算提高計算速度。

　　整個《自然》論文給人的感覺是，AlphaGo在圍棋AI的工程實施的各個環(huán)節(jié)都精益求精做到最好，最后的棋力并不能簡單地歸因于一兩個技術(shù)突破。算法研發(fā)與軟件工程硬件開發(fā)多個環(huán)節(jié)都不計成本地投入，需要一個人數(shù)不小的精英團隊全力支持，也需要大公司的財力與硬件支持。V13與V18更多給人的感覺是工程成就，之前的圍棋AI開發(fā)者基本是兩三個人的小團隊小成本開發(fā)，提出了各式各樣的算法思想，AlphaGo來了個集大成，終于取得了棋力突破。

　　即使這樣，V18在實戰(zhàn)中也表現(xiàn)出了明顯缺陷，輸給李世石一局，也出了一些局部計算錯誤。如果與國際象棋AI的表現(xiàn)對比，對人并不能說有優(yōu)勢，而是各有所長。人類高手熟悉這類圍棋AI的特點后，勝率會上升，正如對騰訊AI刑天與絕藝的表現(xiàn)。

　　ZEN、刑天、AlphaGo版本V18共同的特點是大局觀很好。連ZEN的大局觀都超過一些不太注意大局的職業(yè)棋手，但是戰(zhàn)斗力不足。這是MCTS海量模擬至終局精確數(shù)目帶來的優(yōu)勢，對于地塊的價值估計比人要準。它們共同的弱點也是局部戰(zhàn)斗中會出問題，死活搞不清，棋力高的問題少點。這雖然出乎職業(yè)棋手的預(yù)料，從算法角度看是自然的。海量終局模擬能體現(xiàn)虛虛的大局觀，但是這類圍棋AI的“搜索能力”仍然是不足的，局面評估函數(shù)水平不高，搜索能力就不足，或者看似搜得深但有漏洞。正是因為搜索能力不足，才需要用MCTS來主打。

　　但是AlphaGo的價值網(wǎng)絡(luò)是一個非常重要而且有巨大潛力的技術(shù)。它的革命性在于，用機器學(xué)習(xí)的辦法去解決局面評估函數(shù)問題，避免了開發(fā)者自己去寫難度極大甚至是不可能寫出來的高水平圍棋局面評估函數(shù)。國際象棋開發(fā)者可以把評估思想寫進代碼里，圍棋是不可能的，過去的經(jīng)驗已經(jīng)證明了這一點。機器學(xué)習(xí)的優(yōu)點是，把人類說不清楚的復(fù)雜邏輯放在多達幾百M的多層神經(jīng)網(wǎng)絡(luò)系數(shù)里，通過海量的大數(shù)據(jù)把這些系數(shù)訓(xùn)練出來。

　　給定一個圍棋局面，誰占優(yōu)是有確定答案的，高手也能講出一些道理，有內(nèi)在的邏輯。這是一個標(biāo)準的人工智能監(jiān)督學(xué)習(xí)問題，它的難度在于，由于深度神經(jīng)網(wǎng)絡(luò)結(jié) 構(gòu)復(fù)雜系數(shù)極多，需要的訓(xùn)練樣本數(shù)量極大，而高水平圍棋對局的數(shù)據(jù)更加難于獲取。Deepmind是通過機器自我對局，積累了2000萬局高質(zhì)量對局作為訓(xùn)練樣本，這個投入是海量的，如果機器數(shù)量不多可能要幾百年時間，短期生成這么多棋局動用的服務(wù)器多達十幾萬臺。但如果真的有了這個條件，那么研究就是開放的，怎么準備海量樣本，如何構(gòu)建價值網(wǎng)絡(luò)的多層神經(jīng)網(wǎng)絡(luò)，如何訓(xùn)練提升評估質(zhì)量，可以去想辦法。

　　AlphaGo團隊算法負責(zé)人David Silver在2016年中的一次學(xué)術(shù)報告會上說，團隊又取得了巨大進步，新版本可以讓V18四個子了，主要是價值網(wǎng)絡(luò)取得了巨大進步。這是非常重要的信息。

　　V25能讓V18四個子，如果V18相當(dāng)于人類最高水平的棋手，這是不可想象的。根據(jù)Master對人類60局棋來看，讓四子是絕對不可能的，讓二子人類高手們都有信心。我猜測，V18是和V25下快棋才四個子還輸?shù)?。AlphaGo的訓(xùn)練與評估流水線中，機器自我對局是下快棋，每步5秒這樣。2016年 9月還公布了三局自我對局棋譜，就是這樣下出來的。V18的快棋能力差，V25在價值網(wǎng)絡(luò)取得巨大進步能力后，搜索能力上升極大，只要幾秒的時間，搜索質(zhì) 量就足夠了。為什么價值網(wǎng)絡(luò)的巨大進步帶來的好處這么大？

　　如果有了一個比V18要靠譜得多的價值網(wǎng)絡(luò)，就等于初步解決了局面評估函數(shù)問題。這樣，AlphaGo新的prototype就更接近于傳統(tǒng)的以局面評估為核心的搜索框架，帶有確定性質(zhì)的搜索就成為算法能力的主要力量，碰運氣的MCTS不用主打了。因此，V25對人類高手的實戰(zhàn)表現(xiàn)，可以與高水平國際象棋 AI相當(dāng)了。

　　我可以肯定V25的搜索框架會給價值網(wǎng)絡(luò)一個很高的權(quán)重（如0.9），只給走子至終局數(shù)子很低的權(quán)重。如果局面平穩(wěn)雙方展開圈地運動，那么各局面的價值網(wǎng) 絡(luò)分值差不多，MCTS模擬至終局的大局觀會起作用。如果發(fā)生局部戰(zhàn)斗，那么價值網(wǎng)絡(luò)就會起到主導(dǎo)作用，對戰(zhàn)斗分枝的多個選擇，價值網(wǎng)絡(luò)都迅速給出明快的判斷，通過較為完整的搜索展開，象國際象棋AI一樣論證出人類棋手看不懂的“AI棋”。

　　上圖為Master執(zhí)白對陳耀燁。在黑子力占優(yōu)的左上方，白20掛入，黑21尖頂奪白根據(jù)地意圖整體攻擊，白22飛靈活轉(zhuǎn)身是常型，23團準備切斷白，這時Master忽然在24位靠黑一子。Master比起之前的版本V18，感覺行棋要積極一些，對人類棋手的考驗也更多?？梢韵胍娺@里黑內(nèi)扳外扳兩邊長脫先各種應(yīng)法很多，并不是很容易判斷。

　　但是如果有價值網(wǎng)絡(luò)對各個結(jié)果進行準確估值，Master可能在下24的時候就已經(jīng)給出了結(jié)論，黑無論如何應(yīng)，白棋都局勢不錯。陳耀燁自戰(zhàn)解說認為，24這招他已經(jīng)應(yīng)不好了，實戰(zhàn)只好委屈地先穩(wěn)住陣腳，復(fù)盤也沒有給出好的應(yīng)對。同樣的招法Master對樸廷桓也下過。

　　上圖為Master執(zhí)白對羋昱廷，左上角的大雪崩外拐定式，白下出新手。白44職業(yè)棋手都是走在E13長的，后續(xù)變化很復(fù)雜。但是Master卻先44打一下，下了讓所有人都感到震驚的46扳，在這個古老的定式下出了從未見過的新手。這個新手讓羋昱廷短時間內(nèi)應(yīng)錯了，吃了大虧。后來羋昱廷自戰(zhàn)回顧時說應(yīng)該可以比實戰(zhàn)下得好些，黑棋能夠厚實很多，但也難說占優(yōu)。但是對白46這招還沒有完全接受。這個局面很復(fù)雜，有多個要點，Master的搜索中是完全沒有定式的概念的。

　　我猜測它會各種手段都試下，由于價值網(wǎng)絡(luò)比過去精確了，可以建立一個比較龐大的搜索樹，然后象國際象棋AI一樣多個局面都考慮過之后綜合出這個新手。這次 Master表現(xiàn)得不怕復(fù)雜變化，而之前版本感覺上是進行大局掌控，復(fù)雜變化算不清繞開去。Master卻經(jīng)常主動挑起復(fù)雜變化，明顯感覺搜索能力有進步，算路要深了。

　　局面評估函數(shù)精確到一定程度突破了臨界點，就可以帶來搜索能力的巨大進步。因為開發(fā)者可以放心地利用局面評估函數(shù)進行高效率的剪枝，節(jié)省出來的計算能力可以用于更深的推導(dǎo)，表現(xiàn)出來就是算得深算得廣。實際人類的剪枝能力是非常強大的，計算速度太慢，如果還要去思考一些明顯不行的分枝，根本沒辦法進行細致的推理。在一個局面人類的推理，其實就是一堆變化圖，眾多高手可能就取得一致意見了。而Master以及國際象棋AI也是走這個路線了，它們能擺多得多的變化圖，足以覆蓋人類考慮到的那些變化圖給出靠譜的結(jié)論。

　　但這個路線的必須依靠足夠精確的價值網(wǎng)絡(luò)，否則會受到多種干擾。一是估值錯了，好局面扔掉壞局面留著選錯棋招。二是剪枝不敢做，搜索大量無意義的局面，有意義的局面沒時間做或者深度不足。三是要在葉子節(jié)點引入快速走子下完的“驗證”，這種驗證未必靠譜，價值網(wǎng)絡(luò)正確的估值反而給帶歪了。

　　從實戰(zhàn)表現(xiàn)反推，Master的價值網(wǎng)絡(luò)質(zhì)量肯定已經(jīng)突破了臨界點，帶來了極大的好處，思考時間大幅減少，搜索深度廣度增加，戰(zhàn)斗力上升。AlphaGo 團隊新的prototype，架構(gòu)上可能更簡單了，需要的CPU數(shù)目也減少了，更接近國際象棋的搜索框架，而不是以MCTS為基礎(chǔ)的復(fù)雜框架。比起國際象棋AI復(fù)雜的人工精心編寫的局面評估函數(shù)，AlphaGo的價值網(wǎng)絡(luò)完全由機器學(xué)習(xí)生成，編碼任務(wù)更為簡單。

　　理論上來說，如果價值網(wǎng)絡(luò)的估值足夠精確，可以將葉子節(jié)點價值網(wǎng)絡(luò)的權(quán)重上升為1.0，就等于在搜索框架中完全去除了MCTS模塊，和傳統(tǒng)搜索算法完全一樣了。這時的圍棋AI將從理論上完全戰(zhàn)勝人，因為人能做的機器都能做，而且還做得更好更快。而圍棋AI的發(fā)展過程可以簡略為兩個階段。第一階段局面估值函數(shù)能力極弱，被逼引入MCTS以及它的天生弱點。第二階段價值網(wǎng)絡(luò)取得突破，再次將MCTS從搜索框架逐漸去除返樸歸真，回歸傳統(tǒng)搜索算法。

　　由于價值網(wǎng)絡(luò)是一個機器學(xué)習(xí)出來的黑箱子，人類很難理解里面是什么，它的能力會到什么程度不好說。這樣訓(xùn)練肯定會碰到瓶頸，再也沒法提升了，但版本V18 那時顯然沒到瓶頸，之后繼續(xù)取得了巨大進步。通常機器學(xué)習(xí)是模仿人的能力，如人臉識別、語音識別的能力超過人。但是圍棋局面評估可以說是對人與機器來說都非常困難的任務(wù)。

　　職業(yè)棋手們的常識是，直線計算或者計算更周密是可以努力解決的有客觀標(biāo)準的問題，但是局面判斷是最難的，說不太清楚，棋手們的意見并不統(tǒng)一。由于人的局面評估能力并不太高，Master的價值網(wǎng)絡(luò)在幾千萬對局巧妙訓(xùn)練后超過人類是可以想象的，也帶來了棋力與用時表現(xiàn)的巨大進步。但是可以合理推測，AlphaGo團隊也不太可能訓(xùn)練無缺陷的價值網(wǎng)絡(luò)，不太可能訓(xùn)練出國際象棋AI那種幾乎完美的局面評估函數(shù)。

　　我的猜測是，Master現(xiàn)在是一個“自信”的棋手，并不象之前版本那樣對搜索沒信心靠海量模擬至終局驗算。它充分相信自己的價值網(wǎng)絡(luò)，以此為基礎(chǔ)短時間內(nèi)展開龐大的搜索樹，下出信心十足算路深遠的“AI棋”，對人類棋手主動挑起戰(zhàn)斗。這個姿態(tài)它是有了。但是它這個“自信”并不是真理，它只是堅定地這樣判斷了。肯定有一些局面它的評估有誤差，如圍棋之神說是白勝的，Master認為是黑勝。人類棋手需要找到它的推理背后的錯誤，與之進行判斷的較量，不能被它嚇倒。

　　上圖是Master執(zhí)黑對孟泰齡。本局下得較早，Master雖然連勝但沒有戰(zhàn)勝太多強手，孟泰齡之前有戰(zhàn)勝絕藝的經(jīng)驗，心理較為穩(wěn)定并不怕它，本局發(fā)揮不錯。Master黑69點入，71、73、75將白棋分為兩段發(fā)起兇猛的攻擊。但是孟泰齡下出78位靠的好手，局部結(jié)果如下圖。

　　黑棋右邊中間分斷白棋的四子已經(jīng)被吃，白棋厚勢與左下勢力形成呼應(yīng)，右上還有R17斷吃角部一子的大官子。黑棋只吃掉了白棋上邊兩子，這兩子本就處于受攻狀態(tài)白并不想要。這個結(jié)果無論如何應(yīng)該是白棋獲利，Master發(fā)生了誤算，或者局面評估失誤。

　　現(xiàn)在職業(yè)棋手與AlphaGo團隊的棋藝競爭態(tài)勢可能是這樣的。AlphaGo不再靠MCTS主導(dǎo)搜索改而以價值網(wǎng)絡(luò)主打，思考時間大大縮短，在10秒以內(nèi)就達到了極高棋力，之后時間再長棋力增長也并不多。棋力主要是由價值網(wǎng)絡(luò)的質(zhì)量決定的，堆積服務(wù)器增加搜索時間對搜索深度廣度意義并不太大。所以Master已經(jīng)較充分的展示了實力，并不是說還有棋力強大很多的版本。這和國際象棋AI類似，兩個高水平AI短時間就能大戰(zhàn)100局，并不需要人類那么長的思考時間。

　　Master的60局快棋擊中了人類棋藝的弱點，它極為自信地主動發(fā)起挑戰(zhàn)敢于導(dǎo)入復(fù)雜局面，而人類高手卻沒有能力在30秒內(nèi)完善應(yīng)對這些不太熟悉的新手。而這些新手并不是簡單的新型，背后有Master的價值網(wǎng)絡(luò)支持的龐大搜索樹。如果價值網(wǎng)絡(luò)的這些估值是準確的，人類高手即使完美應(yīng)對，也只能是不吃虧，犯錯就會被占便宜。有些局面下，價值網(wǎng)絡(luò)的估計會有誤差，這時人類高手有懲罰Master的機會，但需要充足的時間思考，也要有足夠的自信與 Master的判斷進行較量。這次60局中棋手由于用時太短心態(tài)失衡很少做到，一般還是會吃虧。

　　以下是我對柯潔與AlphaGo的人機大戰(zhàn)的建議：

　　1。要對機器有足夠了解，不要盲目猜測。可以簡單的理解，它接近一個以價值網(wǎng)絡(luò)為基礎(chǔ)的傳統(tǒng)搜索程序。

　　2。要相信機器并不完美。如果它的局面評估函數(shù)沒有錯誤了，或者遠遠超過人，那就和國際象棋AI一樣不可戰(zhàn)勝了。但圍棋足夠復(fù)雜，即使是幾千萬局的深度學(xué)習(xí)，也不可能訓(xùn)練出特別好的價值網(wǎng)絡(luò)，一定會有漏洞與誤差。只是因為人的局面評估也不是太好，才顯得機器很厲害。

　　3。這次機器會堅定而自信地出手，它改變了風(fēng)格，在局面仍然膠著的時候不會回避復(fù)雜變化。因為它的搜索深度廣度增加了，它認為自己算清了，堅定出手維護自己的判斷，甚至?xí)鲃訐浣僭旖佟?/p>

　　4。機器的退讓是在勝定的情況下，它認為反正是100%獲勝了，就隨機選了一手。后半盤出現(xiàn)這種情況不用太費勁去思考了，應(yīng)該保留體力迅速下完，下一局再戰(zhàn)斗。

　　5。機器的大局觀仍然會很好，基于多次模擬數(shù)空，對于虛空的估計從原理上就比人強，這方面人要頂住但不能指望靠此獲勝。還是應(yīng)該在復(fù)雜局部中與機器進行戰(zhàn)斗，利用機器價值網(wǎng)絡(luò)的估值失誤，以人對局面估計的自信與機器的自信進行比拼。機器是自信的，人類也必須自信。也許機器評估正確的概率更大，但是既然都不完美，人類也可能在一些局面判斷更為正確。

　　6。機器對稍復(fù)雜戰(zhàn)斗局面的評估是有龐大搜索樹支持的，并不會發(fā)生簡單的漏算，不應(yīng)該指望找到簡單的手段給機器毀滅性打擊。由于人類的思考速度慢，時間有限，不能進行太全面的思考。應(yīng)該集中思考自己判斷不錯的局面，圍繞它進行論證。如果這個判斷正好是人類正確、機器錯誤，那人是有機會占優(yōu)的。

　　通過以上分析，我對人機大戰(zhàn)柯潔勝出一局甚至更多局還是抱有一定期望的。希望柯潔能夠總結(jié)分析圍棋AI的技術(shù)特點，增加自信，針鋒相對采取正確的戰(zhàn)略，捍衛(wèi)人類的圍棋價值觀。