陈经技术分析：谷歌围棋算法存在巨大缺陷，达不到人类最高水平

APP下载

扫一扫

下载观察者APP

陈经技术分析：谷歌围棋算法存在巨大缺陷，达不到人类最高水平
- 陈经风云学会会员，《中国的官办经济》
分享到：

0

2016-02-01 07:20:50 字号：A- A A+ 来源：观察者网

关键字: 围棋人工智能谷歌围棋程序围棋程序战胜人类AlphaGo李世石樊麾策略网络价值网络蒙特卡洛

2016年1月28日，谷歌围棋程序AlphaGo以5:0战胜职业棋手的消息，震动了围棋圈。这两天有很多的讨论，主要是新闻性的。我也在第一时间进行了常识性的介绍。

本文进一步从围棋和人工智能技术的角度，深入分析AlphaGo棋艺特点，评估其算法框架的潜能，预测与人类最高水平棋手的胜负。下文中出现的策略网络、价值网络、蒙特卡洛法请参考前文，理解具体围棋局面也需要一定的棋力，但是与算法推理相关的内容理解起来并不难。

AlphaGo是如何下棋的

所有人，包括职业棋手，看了AlphaGo战胜樊麾二段的五盘棋，都说这程序下得像人了，和以前的程序完全不同。柯洁九段（公认目前最强棋手，一年获得三个世界冠军，对李世石6:2，古力7:0）的看法是：

“完全看不出来。这五盘棋我也仔细地看了一眼，但我没看名字，不知道谁执黑谁执白，完全看不出谁是AI。感觉就像是一个真正的人类下的棋一样。该弃的地方也会弃，该退出的地方也会退出，非常均衡的一个棋风，真是看不出来出自程序之手。因为之前的ZEN那样的程序，经常会莫名其妙的抽风，突然跑到一个无关紧要的地方下棋。它这个不会。它知道哪个地方重要，会在重要的地方下棋，不会突然短路。这一点是非常厉害的。”

连笑七段让四子对DolBaram。棋谱可参考附录的sgf文件，看看电脑是如何搞笑的。

先来看我上一篇文章中提到的DolBaram被连环劫搞昏的局面。右下角白是连环劫净活，电脑却不知道，耗费了很多劫材来回打。这是因为电脑是用蒙特卡洛树形搜索（MCTS）下的，一直模拟下到终局，看各个选择的获胜概率。人一眼就知道打劫是没用的，你提这个我必然提回那个。电脑模拟时的选点却不会只有那一招，就会发现，如果对手不提另一个劫走了别的，那电脑就能吃角了，所以就去提劫。直到劫材损光，电脑才会恍然大悟，吃不掉，但这已经过去几十手，超过电脑的搜索能力了。

看到电脑被连环劫搞昏，乐开花的连笑

2014年日本UEC杯软件决赛，Zen执黑对CrazyStone。完整棋谱可看附录的文件。

再来看Zen和CrazyStone两个过去最强的程序间的一个局面。黑61威胁白右上角和中上，白却不应，在下面62切断，黑继续63吃掉右上角。最后白在上面损失惨重，为了救中上几个白子，下面又被黑先动手，没有收益。为什么CrazyStone不应上面？因为程序没有价值的概念。白不应上面，黑要把白右上吃掉，还需要很多手，中上的白子活不活更不好说，这已经超出了电脑蒙特卡洛模拟的能力。因为电脑不知道要对着上面猛算，它不知道上面是焦点，可能花了很多计算在下面或者其它地方，认为62手下面切断胜算更大，上面的损失它模拟得不对。这个局面能说明蒙特卡洛树形搜索法（MCTS）的局限性，这个弱点很要命。

那么AlphaGo会如何解决这两个问题？连环劫问题，DolBaram可能得打个补丁。AlphaGo也是基于MCTS的，但是它的策略网络是深度学习高手对局的招法训练出来的，更为准确，有可能提劫这手就不会给多大概率，因为高手们面对这个局面不会去提劫。另一种可能是，AlphaGo有一个价值网络，不用来回打一堆劫就能直接判断下一招后，获胜机会如何。由于价值网络是训练出来的，包含了3000万局的最终结果，对于右下那块白棋的死活是有判断的。当然也可能AlphaGo针对连环劫有补丁。

CrazyStone犯错这个图，假设AlphaGo执白，在考虑第62手。61、62、63这些着手显然都会在AlphaGo的策略网络的选点中。你要让它用MCTS模拟出右上和中上白棋几个子是怎么回事，估计也是不行的，手数和分支太多。因为这不是一个简单的死活问题，白可以不要一部分甚至都不要，只要在其它地方有足够的补偿。但是AlphaGo有价值网络，它会在模拟到63手时，用价值网络快速评估一下，发觉白必败，于是迅速否定62这手棋，在上面下棋。因为价值网络的3000万个样本中，上面这种白棋类似棋形导致失败的棋局会有一些。

这里我们看出来，AlphaGo相比前一代软件的革命性进步，是有了一个价值网络。实际上，AlphaGo可以不用搜索，直接用策略网络给出一些选点，用价值网络判断这些选点的价值，选一个最好的作为着手，就可以做出一个非常厉害的程序。这个简单程序就可以打败其它软件，达到KGS（一个围棋网，人工智能程序一般在上面打级） 7D，这是非常惊人的。Facebook的Darkforest也可以不搜索，用策略网络给出一些选点，选其中概率最大的点（最像是高手下的那招棋），这样可以达到KGS 3D。在此基础上再加上MCTS，把Darkforest提升到了5D。这说明AlphaGo的价值网络对棋力提升的价值，可能比MCTS还要大。

有了高效的价值网络，AlphaGo就容易知道局面的焦点在哪，不会在非关键的地方走。可以预期，其它软件开发者要跟上AlphaGo，就得把价值网络搞出来。但是这非常难，需要模拟海量的对局，对局水平还不能低，需要的投入很大。

AlphaGo想要战胜业余高手，策略网络、价值网络就够了。但要战胜业余顶尖，就还得加上MCTS。这相当于对策略网络、价值网络的选择，进行验算。策略网络有两个，一个是给出当前局面的选点，一个是在MCTS模拟中快速给出一些选点。价值网络给出判断，有价值的搜得深。整个决策过程非常象人类高手的思维过程了：面对局面，给出一些选点；然后对各个选点推演下去，有的推几步就判断不行终止，有的会推得很远；有时算不清，就根据感觉下；有时没时间，直接感觉，都不推理了。

所以AlphaGo的算法框架很强大，和人类高手很像。而且它没有情绪波动，每一步都会稳定地用MCTS进行验算，人类不一定做得到。樊麾二段就是败在这上面，不少着都没有仔细验算，冲动地下了被AlphaGo反击吃大亏。

1 2 3 下一页余下全文
0

标签围棋人工智能谷歌程序
- 责任编辑:陈轩甫
搜索

   观察者头条查看全部

西班牙用华为，欧盟又作妖评论 50

雅下工程令世界惊叹，但它的意义仍被很多人低估了评论 154

超13万人疏散！泰国警告：可能爆发战争评论 134

这叫“言论自由”？美科企得自我审查，“讨好”特朗普评论 51

澳前总理在美国会作妖：面对中国，我们还睡大觉评论 125

   风闻 · 24小时最热查看全部

1
终于决定放弃孩子的学习了！评论 235   赞 15
2
19岁男生喝农药自杀，不只是为了910块钱评论 184   赞 16
3
赖清德拿台湾民众当“肉盾”，解放军还怎么打？评论 169   赞 14
4
为什么都产能过剩了老百姓还普遍贫穷？评论 81   赞 29
5
内蒙出事的这套设备是我同学参与设计的，昨天全所上下翻查资料，只为确认一件事评论 77   赞 63
6
《明末：渊虚之羽》，游戏质量平稳落地了吗？评论 56   赞 3
7
看完《南京照相馆》后让人久久不能平静，我觉得值得每个中国人观看！评论 54   赞 24
8
如何看待大学生称穷游遭长沙网约车司机阴阳一事？评论 48   赞 4
9
北魏帝陵主人身份靠一枚东罗马帝国金币的出土而确定评论 43   赞 1
10
我已经执教《乡土中国》这本教材两轮，这本书非常不适合高中生阅读评论 41   赞 37

   最新视频查看全部

泰柬再次交火，目前双方已有多人死伤，包括平民
高志凯：人工智能发展，美国有自己的杀手锏，我们要有紧迫感
高志凯：美国应该认识到他们拦不住中国，我们绝大部分人能够活着看到，中华民族屹立在世界舞台中央的一天
高志凯：我们必将引领人工智能的大革命，无论有没有美国，中国都会走自己的路，举自己的旗，攀登自己的高峰
最新闻 Hot
快讯

陈经技术分析：谷歌围棋算法存在巨大缺陷，达不到人类最高水平

特朗普：哈马斯找死

在日本鹦鹉学舌，捷克总统妄言：台湾有事，欧洲也会有事

西班牙用华为，欧盟又作妖

澳大利亚前总理：我们不想卷入遏制中国发展的行动

最后一搏？冯德莱恩将与特朗普会面谈判关税

非常罕见！马斯克致歉

美国务院调整对华架构，“中国屋”换人接手

雅下工程令世界惊叹，但它的意义仍被很多人低估了

特朗普狂言“美菲将拥有一切”，她怒斥

他信称“要给洪森一个教训”，洪森回应

除了特朗普，还有克林顿贺信：你有孩童般的好奇心…

超13万人疏散！泰国警告：可能爆发战争

“星链”全球断网，乌克兰抱怨：连累了我们前线…

“特朗普或推动中俄印重启…”

争议不断！律师发声：我国没有“原唱”这一法律概念

这叫“言论自由”？美科企得自我审查，“讨好”特朗普