陈经：被围棋AI横扫后，职业棋手应该如何提高水平？

APP下载

扫一扫

下载观察者APP

陈经：被围棋AI横扫后，职业棋手应该如何提高水平？
- 陈经风云学会会员，《中国的官办经济》
分享到：

2017-01-04 19:25:10 字号：A- A A+ 来源：观察者网

关键字: 围棋AI柯洁MasterAlphaGo谷歌人工智能价值网络算法

【文/ 观察者网专栏作者陈经】

2016到2017岁末年初的三天假期，棋迷们惊喜地发现围棋对弈网站出现了好几个高水平围棋AI。

在弈城上像劳模一样一直猛下的是日本的DEEPZEN，至2017年1月3日五天时间已经下了超过200盘，输了20盘。之前DEEPZEN在高手不多的KGS围棋网上也是这么猛下，人们已经熟悉了它的风格。DEEPZEN在弈城的战绩并不出人意料，甚至有点令人失望。虽然它胜多负少，但主要是胜不带P标志的业余棋手，对职业棋手输得多，还没有世界冠军级棋手出手测试。

另一个一上线就引发关注的是腾讯野狐围棋的“刑天”。腾讯在2016年11月上线的AI“绝艺”在一个月中已经打出了不小的名气，胜了柯洁一盘，5：1胜朴廷桓。这让人们对国产AI有了信心，腾讯也报名了2017年3月在日本举办的AI围棋世界锦标赛。但是高手们似乎摸清了绝艺的路数找到了对付它的办法，柯洁对绝艺的战绩是3：1，不少职业高手都战胜过它，绝艺出过一些明显的bug。因此从11月底，绝艺再没下过棋，下线研发升级去了。

一个月后，2016年12月27日，升级版本“刑天”又上线开始下棋。这次升级应该有进步，对柯洁战成5：2，对朴廷桓4：1。但不能说有本质进步，柯洁明显找到了对付它的办法，几次吃死它的大龙，刑天死活还是有问题。这些测试棋全部是20秒或30秒一手的快棋，刑天对世界冠军级高手们的胜利，很大程度是高手们因为时间压力出现错误，如柯洁有一盘已经杀死了刑天的大龙绝对优势，后面不小心输回去了。腾讯开发的AI水平已经很高了，职业棋手感觉它的实力和2016年3月与李世石对战的AlphaGo版本V18相当。职业棋手们已经找到了刑天的漏洞，对它有办法了不会太怕。

上图是2016年12月30日柯洁第一次对阵胜刑天，就执黑大胜。本局柯洁早早就吃掉刑天棋盘右边的一条大龙，最后三招柯洁连下三个单长走起了五子棋，估计是人类操作员手动替刑天认输了。AI如果走出这样的棋，即使一时对人类高手胜多负少，棋手们也不会怕。

这时弈城网站上的Master在2016年12月29日也开始下棋了，一开始并不引人关注，开始10多局胜的并不是世界冠军级棋手。随着12月30日Master对排名第一第二的柯洁与朴廷桓各胜2局取得20连胜，终于引起了关注。棋迷与棋手并不是太吃惊，因为之前绝艺与刑天也有这样的惊艳表现，而且Master下的是20秒的快棋，20秒时间太短高手容易犯错，30秒高手们会好多了。

棋迷们喜大普奔，这么多高水平的AI同时在对弈网站上，AlphaGo的论文养出了一堆狗仔，“群狗闹新年”太有意思了。接下来职业棋手和棋迷们自然的预期是，随着每手时间提升至30秒，高手们耐心琢磨也找到Master的漏洞终于胜出，对它的预期和刑天差不多。

但事实证明，Master的水平比刑天要高得多。在弈城达成30连胜后，Master转战野狐，除1月1日新年休息了一天，保持每天10局的节奏。到2017年1月3日，Master达成了50连胜，对手中包括16位世界冠军，三国水平最高的柯洁、朴廷桓、井山裕太都在其中。人类高手们排队轮流上阵，不一会就倒下被门板抬走。人类一胜难求，甚至没有出现过胜机。经常是一个局部就大为落后，Master早早领先10多目甚至20目以上，收官时再“让”给人类一些目数送成4目半、2目半或者半目胜。

人类水平最高的棋手群体，在Master面前这样漏洞百出，这让一些职业棋手以及棋迷们有些难以接受。

Master的神秘身份

Master的身份显然就是AlphaGo的升级版本，我断定没有其它可能。Master在弈城注册为韩国职业棋手，这是因为AlphaGo胜了李世石后获得了韩国棋院颁发的九段证书。1个月前在KGS天元开局虐杀DEEPZEN的GodMoves很可能也是AlphaGo，应该是放CPU与GPU较少的单机版到各网站测试。谷歌在11月宣称AlphaGo取得了巨大进步，将于2017年初复出下棋。谷歌CEO还访问了中国棋院，如果达成与柯洁的第二次人机大战协议不奇怪。谷歌一向有签保密协议的作风，但中国棋院要求谷歌放出单机版进行公开测试也正常。

谷歌对AlphaGo有信心了，放出来测试不怕被找到bug，主动或者应邀出来公测是自然的发展，时间也对得上。一个有趣的细节是，参与测试的棋手中，孟泰龄只获得过一个国内冠军，离世界冠军们水平还差一点，但是他却有机会与Master下了四盘棋。我猜测这是因为，Master和AlphaGo的“人肉机械臂”操作者都是谷歌论文的作者之一Aja Huang，他经常上WeiqiTV看孟泰龄的节目，是他的粉丝，因此多次邀请他与Master对局。

也有说Master可能是韩国研发的AI，这个可能性极低。围棋AI的研发是有轨迹的，象腾讯这样参照谷歌论文快速达到很高水平是可以理解的，但是也需要出来测试找到问题又回头想办法，不太可能闷头研发一出来就天下无敌。而谷歌经过多个版本的升级，确实有这个实力。2016年中，Deepmind在学术报告上就宣称后续版本能让V18四个子了，又取得了巨大进步。

Master达成50连胜后并未终止下棋，1月4号上午又继续开战。如果是论胜负，由于Master只选择30秒的快棋，对人类高手来说思考时间不足难以发挥最高水平。而Master固定地每8秒下一次，时间根本没用完，这是机器天然的优势。人类高手对战时经常选择20秒的读秒，30秒算网棋中时间长的了，但基本是练习。现在对Master的挑战已经带上了悲壮色彩，比正式比赛气氛还要激烈，野狐围棋的创始人古力九段声称第一个战胜Master的人奖金10万元。

由于Master的棋力极高，又不走人类棋手习惯的套路，很多局面都需要强度极大的思考，30秒人类高手实在是不够，会出不少漏洞。因此，如果还是30秒的棋局，Master的胜利会一直延续下去。有些读秒功夫强的棋手号称快慢棋水平差不多，但那是人与人在一些常见套路中对战。而且读秒功夫强是说后半盘收束，布局与前半盘如果出现新型，总是得停下来思考，10来分钟都算短的，半小时或1小时以上的长考也常见。

上图是1月3日柯洁与Master一个战斗告一段落。柯洁花掉了两次读秒（一共就三次30秒）才在左上角的战斗中顶住了。黑吃掉白四子目数不小，白也没有安定，应该至少是不落后。后面Master也选择了激烈的下法，柯洁只剩下一次30秒，应对不利输掉了。在新型的战斗中，其他棋手基本会被Master打垮。

因此，Master对人类最高水平棋手取得50连胜这个事实，不宜过于夸张。围棋AI的算法特性是，搜索空间是指数增长的，几十倍时长只是带来搜索深度增加几层，几秒钟与几十分钟的搜索可能棋力并无本质提升。增加时长更可能是用于MCTS的随机模拟终局数量，模拟质量能上升一些。达到基本时长保证足够的搜索深度与模拟的局面数量之后，再增加时间意义并不太大。

AlphaGo在分布式版本有1202个CPU和176个GPU，比“单机版”的48个CPU与8个GPU数多几十倍，但是对单机版的胜率70%并没有本质棋力提升。实战证明，Master和刑天思考几秒或者十几秒就有基本的水平了。如果能够战胜“秒下”的AI版本，战胜思考时间更长的版本没有本质的困难。

而人类高手群体在这次Master翻牌式的点名测试中全败，表现出了一些过去可能不太重视的弱点，值得好好总结分析。本文从围棋棋艺与“棋机结合”的角度进行技术解读。前面是新闻式的介绍，阅读后面的内容就需要对围棋技术与计算机算法有一定的了解。

AI杀手锏：价值网络和策略网络

人类高手下围棋的过程和机器下棋的手段是可以参照的。对于当前局面，人类先直觉产生一些候选点，这对应现在所有高水平围棋AI都采用的深度学习出来的“策略网络”。机器学习生成策略网络时，参考的就是人类高手的棋局，也有说法是AlphaGo从零开始不参考人类棋局，全部自我强化学习生成策略网络的。这次Master的招数绝大多数都是在人类的候选点范围内的，可以认为高手和Master的胜负不在于候选点的质量。

人类高手会利用有限的思考时间对不多一些选点进行几步推演，如果必走的直线着数多，有时能推到几十手以后。然后高手们会进行判断，如这个局面“简明”，就是自己优势可以接受，就这么下了，再狠些能给对手更狠打击的也不去想了。再如判断局面“复杂”看不清，李昌镐会非常独特地尽量避免这种局面，寻找虽然优势小但是自己能控制的处理办法。也有一些高手会主动将棋局导入复杂局面，发挥自己乱战的长处。

帮助进行局面的判断的主要手段是“数目”，能确定的地算清楚，李昌镐的贡献就是将数目判断精细化的程度推到了极致，当然现在的高手这方面的水平也上来了。数完目以后，算上贴目后双方会有目数差距，如果在收官阶段差距稍大到两三目以上，结论一般就确定了，胜负已定收拾心情。在布局以及中盘，就要用厚势、弱棋负担之类的来回调整一下，粗粗的给个结论。

这种结论往往很不精确，不同的棋手判断可能不同，有的喜欢实地，风格是“敏于实地”，或者喜欢外势，风格是“厚实攻击”。高手们有时没法判断了或者想讲清楚道理，还喜欢用日本道策发明的“手割”法，从公认有结论的局面为基础，改变着手次序倒推，有点数学公理系统的意思。总之，在局面还有很多未确定因素的时候，人类进行判断的手段就是这些，并不太多。

这种情况下，人类高手们讨论局面判断的时候有时显得很搞笑的。如果一个局面，下A和下B结果是确定的“下A会比下B亏1目”，那所有高手都会认为A是错招不成立。有时甚至会为了这一目“不能忍受”的亏损进行复杂的大转换，或者否定一个定式。

人类高手对于有确定结论的东西是非常在意的。这也是多数业余棋手糊里糊涂的地方，下B可以下A好象也行凭感觉来吧，几下就亏掉很多目。但是如果这时有另外一个选择C，没有办法相对AB给出确定结论，那高手们就会作出“两分”、“双方可下”、“得失不明”、“下C不好控制还是下B”，“下C照顾大局”之类的模糊结论。但是实际上可能下C比下B要好得多，如果选择B亏的就不是1目了，可能是好几目。

上图是以前的一个常见小目定式，高手们下过无数盘。但是后来没有人下了！因为实际上这个图黑棋亏大了。双方手数一样，黑还先占角的，但是子力位置偏低，地和势都不见得有优势，没有体现“先招优势”。现在是这么解释，但是之前为什么一直下？因为理由也并不是那么明显。孟泰龄说，是高手们经过多次实战，发现执黑一方胜率明显偏低，回头找问题，这才放弃了这个定式。

这种“集体实战”判断，是网络围棋时代高手们开发出的新办法。说不清，大家就实战来试试，你说两分，我说黑优，水平相当的双方实战100盘如果黑胜了70盘明显占优，大家还是会同意“黑优”的结论。以前没有网络，职业棋手一年才下几十盘棋，互相交流也少，这种方法就不可行了，往往是个人面壁式的细心体会局面优劣。现在网络时代，勤奋的职业棋手一年下上千盘网棋都有可能，这种方法不仅可能，甚至发生了有趣的演变。

高手们为了维持状态，就积极地在网站上下20秒30秒的快棋。这样的结果是，高手们开发演变出了一些大型“套路”。这是因为，如果你偏离套路，一般会吃亏，会通过输棋或者直接讲理判断证明。于是大家都摆套路，提高熟练程度。

偶而会有高手出“新手”取得效果，于是其它高手们研究试用以后，给出相应的应对，否定这个新手，丰富了套路的内涵。或者同意这个新手成立，形成新的套路，回头否定老的套路。这样来回否定，对套路的理解确实深了，也可以算是棋艺的进步。但是网棋以及正式对局，就出现了大型套路太多，降低棋局精彩程度的问题，有时甚至“复盘”到四五十手才变招，围棋有“象棋化”的趋势。

当然这些套路是有内涵的。一般认为日本棋手水平相对中韩下降，是因为日本棋手战斗力不行，布局看着还行，中盘就被杀得不行了。孟泰龄战斗力与算路与年青棋手比相对差，但是布局分析却较有信心，经常战胜算路好的对手，在中国等级分能排20多位。他认为日本棋手恰恰是布局水平有问题，对局面的理解落后了。因为中韩棋手积极在网络上对战，或者在国家队里交流最新“套路”内涵成果，所以其实掌握了很多先进知识。

日本棋手还是老套路，也不注意这些最新成果，还是按老的理解走吃了亏也不知道，经常就是“安乐死”。想要挣扎下出过分的招数，战斗力又不行，输得更快。

中韩高手们集体实战验证套路的办法，其实暗合了AlphaGo强化学习生成价值网络的方法。AlphaGo会进行几千万次的高质量“自我对局”，比高手们的对局加起来都多得多。人类高手们反复实战能判断几十个局面都不容易，AlphaGo的训练流水线却能生成几千万个局面，用于价值网络的训练。

价值网络是个和策略网络结构相似的多层神经网络，但是里面的系数不一样，它能对一个静态局面不搜索直接给出胜率，判断谁占优。有了策略网络与价值网络，AlphaGo不需要搜索都可以下得很好了，对每一招策略网络提供的选点，价值网络给出胜率判断，选择最好的一个选点下就可以了。2016年中Deepmind说AlphaGo棋力取得突破，就特别说了价值网络取得了巨大的进步。

价值网络是人类思考中没有的，在谷歌论文之前甚至没有这个概念。从学术角度来说，这可能是谷歌论文最大的贡献，深度学习生成策略网略并非Deepmind最先提出的。虽然对人类来说有点不自然，但价值网络正是人类可以学习的地方，职业高手们也许能从这个方向上取得棋力的突破，但需要科学的方法。

人类能通过多次实战、打谱，在脑中形成直觉，看一眼局面就能根据棋形产生一些靠谱的候选点。对人类直觉方便之处在于，候选点有“局部性”，人只要看局部就能有“关键”点的直觉。有时一些照顾全局的棋招会被夸张地称为“耳赤妙手”。人类自然倾向就是局部观察，眼睛看画面时自然会聚焦在一小块地方，棋手思维也是如此。高手要逆着这个直觉观察全局，多找一些候选点。范西屏是中国古代水平最高的棋手之一，李步青对其它人这样形容他的棋艺：“君等于弈只一面，余尚有两面，若西屏先生则四面受敌者也”，这是说范西屏全局观念特别强。

但这种全局观念毕竟难于描述，成了高手中只可意会不可言传的“大局观”。人类对局部的精确描述却不断取得进展，局部定式发展出成千上万个，甚至有《定式大全》这样的书。局部数目的手段与技术也不断发展，目数价值精确到几分之一。大局观方面却一直没有太大的进展。甚至一些90后年青高手认为，布局不要太看重，花时间想也想不出什么东西，随便搞搞套路或者下一些过得去的着手应付下，大量时间要留在中后盘决战。

从实战来说，这也确实是胜率较高的选择，你脱离套路未必占优，就算花大量时间琢磨布局选点便宜了两三目，后面时间不够了随时崩盘，因为人家后面肯定会来“搅”。孟泰龄主要的获胜方式，就是利用一些年青棋手忽视布局这个特点，他精心研究布局，多次在局面判断中取得优势，后面拼了老命把优势守下来。但是由于年青高手们冲击实在太厉害，往往顶不住，泰哥也无法取得战绩的突破，只能维持住一流高手的地位。

职业棋手面临着训练内容与方法的革命

职业棋手们水平取得突破，也和一些围棋道场的严格军事化训练手段分不开。冲段小棋手们做海量的死活题，认真进行大量的对局，严谨计算的态度与人脑中“策略网络”的质量都不错。死活题有上千年的历史积累，多年的实战提供了大量素材，还有不少高手喜欢创作死活题。日本的《发阳论》吸收了中国古代棋书中不少素材，韩国《天龙图》是实战积累。死活题素材不缺，有道场、有网络，高水平实战锻炼的机会不缺，套路相关的信息流传也快，职业棋手群体水平迅速进步。

但是，各道场并没有多少“局面判断”的题目积累，这是一个非常严重的技术性缺失。如果棋手群体有意识地在这方面努力，是有办法可想的。可以集体讨论一些局面，取得一致，拿出来做为习题或者“训练样本”。也可以在网络上组织实战，主动对一些局面统计胜率，获得宝贵的数据，达成一致。可以积累大量网站与实战高水平棋谱，对一些同类开局进行大数据分析。这样的分析程序已经有了，但主要是正式比赛棋谱不够多，如果能和对弈网站联手，增加海量棋谱，局面统计分析就更为精确。

现在有了高水平围棋AI，就更为方便了。高水平围棋AI，以后一定会普及。如果放开AI数据后门，就能看到局面的具体胜率，甚至价值网络对局面的估值。甚至也可以把训练好的价值网络单独抽出来做成小程序帮助分析。这样，应该可以象死活题一样积累出海量的局面判断素材。和以前不一样的是，这些局面判断题有参考答案，或更为权威的答案，并不仅仅是思考题。

职业棋手们可以去盯着这些局面判断题，进行全局思考。为什么这些局面是黑优不是白优？为什么和自己的感觉相反？为什么AI或者统计结论明显，自己却没有感觉？这样仔细琢磨，一定会想出一些道理。琢磨久了，甚至作出判断的速度都会加快。AI的策略网络和价值网络的神经网络是相似的，人类既然能够有“策略网络”的直觉系统，同样在人脑中训练出“价值网络”应该是可行的。

从人类等级分最高的柯洁的棋艺来看，他可能就有这样的特点。柯洁的算路并不是最深的，数目也不是最强，也不是妙手一堆，当然这些都不弱。柯洁自称最强的是判断，有时直接判断不用数目就知道是亏了还是赚了，是通过4000多盘网棋成长起来的。很可能柯洁在数千盘对战中不自觉地注意了对脑中“价值网络”的训练，形成了自己领先其余高手的局面判断能力。这些棋手与棋迷认为，柯洁是下得最象AI的棋手。

职业棋手群体可以把这个过程工程化，主动收集有教育意义的反直觉局面，棋手们主动接受类似机器学习的“人脑学习”训练，形成直觉一样的局面判断能力。在高水平AI的帮助下，这个过程应该可以迅速缩短，不用非常辛苦地积累素材。对各个道场的培训水平而言，局面判断素材以及使用AI帮助训练的能力，会成为重要因素。国际象棋AI早就这样帮助人类棋手训练了。

这种局面判断，天生就是全局的。这将使人类高手的围棋思维，从之前的局部定式、局部数目、局部战斗，飞跃进步到全局判断、全局战斗，这将是吴清源大师穷毕生之力思索并力推的“21世纪围棋”、“六合围棋”时代。吴清源2014年去世了，没有看到围棋AI的革命性进展。但是在围棋AI的帮助下，这个时代将不可避免的到来，人类高手围棋水平将再次取得突破性进展。

而对于Master这样的围棋AI，也不要过于恐惧。它的秘密武器就是以价值网络为基础的全局思维，新手不断，明快取舍。AI的价值网络是基于全局的，所以全局配置稍有不同，它的着手就会发生变化，远远的几个散子人类看不到什么，AI却能考虑到下出新手。

人类高手30秒计算时间过短，碰到的又是完全不同的棋路需要计算，自然容易出错被狠狠打击。甚至有些着手，人类高手们“不知道AI是什么意思”，过了一些招数才发现吃大亏了。有些上阵的高手甚至由于恐惧，对自己失去信心，明显技术变形，早早就大败了。

人类由于生理条件的限制，需要更多的思考时间。从探索围棋技艺的角度，要求更多思考时间是合理的。如果在布局与中盘战斗中领先或者顶住了，收官时因时间紧张出小错败北，这并不可怕。但是人类必须在布局方向选择、接触战的局面判断中更多地引入全局思维，接近AI的水平，才有机会顶住。

AI由于MCTS算法天生的弱点，很大可能仍然是有缺陷的，太复杂的局面会出现算路问题，或者局部死活出现漏算，而这是人类的优势。人类的语言逻辑推理能力，局部严密算路是有优势的！对于复杂局面，人类可以总结归纳主要矛盾，设计出组合手段，推理出可行次序。而AI由于MCTS的框架特性，什么都要算到终局，不可能什么都模拟到，大量算力浪费在非关键的逻辑里，发生漏算是可能的。当然前提是人类高手需要顶住，不能让AI随便就领先10几20目，那AI可以简明地控制局面，对手毫无机会。

如果人类高手能够学习价值网络的全局思维主动训练，取得棋艺的飞跃进步，再给以足够的思考时间，和AlphaGo以及其它水平不断进步的高水平AI对战还是有胜机的，而这对围棋发展的意义极为重大。Deepmind开发出AlphaGo这样的革命性围棋程序，将确定无疑地引领围棋艺术再一次的飞跃进步，人类棋手也会获益非浅。

本文系观察者网独家稿件，文章内容纯属作者个人观点，不代表平台观点，未经授权，不得转载，否则将追究法律责任。关注观察者网微信guanchacn，每日阅读趣味文章。
标签围棋 AlphaGo 人工智能算法科技
- 请支持独立网站，转发请注明本文链接：
- 责任编辑:武守哲
搜索

   观察者头条查看全部

俄军正占上风，美乌这时谈停火普京能同意吗？评论 58

近70年来首次，“世界超市”美国要凉了？评论 109

五角大楼高官：台湾非生死攸关问题，成本大于收益评论 232

加拿大“软”了，特朗普“退”了… 评论 88

菲总统马科斯首次发声评论 300

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

陈经：被围棋AI横扫后，职业棋手应该如何提高水平？

俄军正占上风，美乌这时谈停火普京能同意吗？

“美国人清楚，俄罗斯永远不会违背与中国达成的承诺”

“在无人机技术上，还没有一家美国公司能跟得上乌克兰”

近70年来首次，“世界超市”美国要凉了？

“特朗普自己的顾问，都被吓到了”

“日本对美征700%关税，疯了！”

“强硬反击是唯一良药”，欧盟也对特朗普抡起大锤

鲁比奥：我可以保证，美国不会向俄罗斯提供军援

五角大楼高官：台湾非生死攸关问题，成本大于收益

又一位顶尖科学家从英回国

“英国也忍了”

特朗普长子突访塞尔维亚，与武契奇会面

“废”教育部需国会批准？“末任教育部长”：先裁一半

罗生门在国外失联超2周，警方介入

加拿大“软”了，特朗普“退”了…

特朗普连发100多条帖子自夸