转载请声明 http://blog.csdn.net/u013390476/article/details/50925347

前言：

围棋的英文是 the game of Go，标题翻译为：《用深度神经网络和树搜索征服围棋》。译者简单介绍：大三，211，计算机科学与技术专业，平均分92分，专业第一。为了更好地翻译此文。译者查看了非常多资料。译者翻译此论文已尽全力，不足之处希望读者指出。

在AlphaGo的影响之下，全社会对人工智能的关注进一步提升。

3月12日，AlphaGo 第三次击败李世石。在3月15日总比分定格为4：1，随后AlphaGo的围棋排名世界来到第二。

论文的英文原文点击这里拜读

编者按：2014年5月，人们觉得至少须要十年电脑才干击败职业选手。笔者在翻译的时候忠实于原文。非常少增加自己的理解（本人不敢说有啥深入理解可言）。

终于翻译结果可能不好。可是对于本人而言，翻译这篇文论的过程大于结果：一篇一万字的中文翻译。背后是十万中英文资料的阅读。

译文

标题：用深度神经网络和树搜索征服围棋

作者：David Silver 1 , Aja Huang 1 , Chris J. Maddison 1 , Arthur Guez 1 , Laurent Sifre 1 , George van den Driessche 1 , Julian Schrittwieser 1 , Ioannis Antonoglou 1 , Veda Panneershelvam 1 , Marc Lanctot 1 , Sander Dieleman 1 , Dominik Grewe 1 , John Nham 2 , Nal Kalchbrenner 1 , Ilya Sutskever 2 , Timothy Lillicrap 1 , Madeleine Leach 1 , Koray Kavukcuoglu 1 , Thore Graepel 1 , Demis Hassabis 1
他们来自 Google DeepMind 英国团队（用1表示）, Google 总部（用2表示）
David Silver , Aja Huang是并列第一作者

摘要：人们长久以来觉得：围棋对于人工智能来说是最具有挑战性的经典博弈游戏，由于它的巨大的搜索空间。评估棋局和评估落子地点的难度。

我们给电脑围棋程序引入一种新的方法，这种方法使用估值网络来评估棋局，以及使用策略网络来选择怎样落子。这些深度神经网络被一种新的组合来训练：使用了人类专业比赛数据的监督学习，以及自我对弈的强化学习。没有使用不论什么预測搜索的方法，神经网络下围棋达到了最先进的蒙特卡洛树搜索程序的水准。这程序模拟了数以千计的自我对弈的随机博弈。

我们同一时候也引入了一种新的搜索算法，这算法把蒙特卡洛模拟和估值、策略网络结合在一起。运用了这个搜索算法，我们的程序AlphaGo在和其它围棋程序的对弈中达到了99.8%的胜率，而且以5：0的比分击败了欧洲冠军，这是史上第一次计算机程序在全尺寸围棋中击败一个人类职业棋手。在此之前，人们觉得须要至少十年才会达成这个壮举。

引言

全部全然信息博弈都有一个最优估值函数v∗(s) ，它在推断了每个棋局或状态 s 之后的博弈结果的优劣（在全部对手完美发挥的情况下）。解决这些博弈能够通过在搜索树中递归调用最优估值函数，这个搜索树包含大约bd 种可能的下棋序列，当中 b 是博弈的广度（每一次下棋时候的合法落子个数）。d 是的深度（博弈的步数长度）。在大型博弈中。比方国际象棋（b≈35,d≈80），和特别是围棋（b≈250,d≈150），穷举搜索是不可行的的，可是有效的搜索空间能够通过两种通用的原则减少。第一。搜索的深度能够通过棋局评估减少：在状态 s 时对搜索树进行剪枝，然后用一个近似估值函数v(s)≈v∗(s) 代替状态 s 以下的子树，这个近似估值函数预測状态 s 之后的对弈结果。这样的方法已经在国际象棋，国际跳棋，黑白棋中得到了超越人类的下棋能力，可是人们觉得这样的方法在围棋中是难以处理的。由于围棋的巨大的复杂度。

第二，搜索的广度能够通过来自策略 p(a∣s) 的採样动作来减少，这个策略是一个在位置 s 的可能下棋走子a 概率分布。比方蒙特卡洛走子方法搜索到最大深度时候根本不使用分歧界定法。它从一个策略 p 中採集两方棋手的一系列下棋走法。计算这些走子的平均数能够产生一个有效的棋局评估，在西洋双陆棋戏和拼字游戏中获得了超出人类的性能表现，而且在围棋中达到了业余低段水平。

蒙特卡洛树搜索使用蒙特卡洛走子方法，评估搜索树中每个状态的估值。

随着运行越来越多的模拟，这个搜索树成长越来越大，而且相关估值愈发精确。用来选择下棋动作的策略在搜索的过程中也会随着时间的推移而改进，通过选择拥有更高估值的子树。渐近的，这个策略收敛到一个最优下法。然后评估收敛到最优估值函数。

眼下最强的围棋程序是基于蒙特卡洛树搜索的，而且受到了策略的增强，这个策略被人训练用来预測专家棋手的下法。这些策略用来缩窄搜索空间到一束高可能性下棋动作，和用来在走子中採集下法动作。这种方法已经达到了业余高手的级别。然而。先前的工作已经受到了肤浅策略的限制或基于输入的线性组合的估值函数的限制。

近期，深度卷积神经网络已经在计算机视觉中达到了空前的性能：比方图像分类，人脸识别。和玩雅达利的游戏。

它们使用非常多层的神经网络，层与层之间像瓦片重叠排列在一起。用来构建图片的愈发抽象的局部代表。

我们为围棋程序部署了相似的体系架构。

我们给程序传入了一个19*19大小棋局的图片。然后使用卷积神经网络来构建一个位置的代表。

我们使用这些神经网络来减少搜索树的有效的深度和广度：通过估值网络来评估棋局，和使用策略网络来博弈取样。

我们使用一个包含多个不同阶段的机器学习方法的管道来训练神经网络。

我们開始使用一个监督学习（SL）策略网络 pδ 。它直接来自人类专家的下棋。这提供了高速高效的学习更新，拥有高速的反馈和高质量的梯度。

和向前的工作相似，我们同一时候也训练了一个能够迅速从走子中取样的高速策略 pπ 。

其次。我们训练了一个强化学习（RL）策略网络，pp，它通过优化自我对弈的终于结局来提升 SL策略网络。这调整策略网络朝向赢棋的正确目标发展。而不是最大化提高预測精度。

最后，我们训练了一个估值网络vθ 。它预測博弈的赢者，通过和RL策略网络和自己对弈。我们的AlphaGo程序有效的把策略网络、估值网络，和蒙特卡洛搜索树结合在一起。

1 策略网络的监督学习

在训练管道的第一阶段。我们在先前工作的基础上，使用了监督学习来预測人类专家下围棋。

监督学习（SL）策略网络pδ(a∣s) 在重量δ的卷积层和非线性的整流器中替换。策略网络的输入 s 是一个棋局状态的简单代表（如扩展数据表2）。

策略网络使用了随机取样状态-动作对（s，a），使用了随机梯度递增来最大化人类在状态 s 选择下棋走子 a 的可能性。

我们用KGS围棋server的3千万个棋局。训练了13层的策略网络（我们称之为SL 策略网络）。在输入留存測试数据的所受特征的时候，这个网络预測人类专家下棋的精准的达到了57%，而且在只使用原始棋局和下棋记录的时候，精度达到了55.7%。与之相比，截至到本篇文论提交（2015年），其它研究团队的最先进的精度是44.4%（全部结果在扩展数据表3）。在准确度方面的小提升会引起下棋能力的非常大提升（图片2，a）。更大的神经网络拥有更高的准确度，可是在搜索过程中评估速度更慢。我们也训练了一个更快的可是准确度更低的走子策略pπ(a∣s) ，它使用了一个权重为π 的小型模式特征的线性softmax。它达到了24.2%的准确度。每选择下一步棋只用2微秒，与之相比，策略网络须要3毫秒。

图1：神经网络训练管道和体系结构。a：在一个棋局数据集合中，训练一个高速走子策略pπ 和监督学习（SL）策略网络pδ 用来预測人类专家下棋。一个强化学习（RL）策略网络pρ 由SL策略网络初始化。然后由策略梯度学习进行提高。

和先前版本号的策略网络相比，最大化结局（比方赢很多其它的博弈）。一个新的数据集合产生了。通过自我对弈结合RL策略网络。终于通过回归训练，产生一个估值网络vθ ，用来在自我对弈的数据集合中预測期待的结局（比方当前棋手能否赢）。

b：AlphaGo使用的神经网络体系架构的原理图代表。策略网络把棋局状态 s 当作输入的代表，策略网络把 s 传输通过非常多卷积层（这些卷积层是參数为δ 的SL策略网络或者參数为ρ 的RL策略网络）。然后输出一个关于下棋动作 a 的概率分布 pδ(a∣s) or pρ(a∣s) ，用一个棋盘的概率地图来表示。估值网络相似的使用了非常多參数θ 的卷积层，可是输出一个标量值vθ(s′) 用来预測棋局状态 s′后的结局。

图2：策略网络和估值网络的能力和准确度。a图显示了策略网络的下棋能力随着它们的训练准确度的函数。拥有128，192，256，384卷积过滤每层的策略网络在训练过程中得到周期性的评估。这个图显示了AlphaGo使用不同策略网络的赢棋概率随着的不同准确度版本号的AlphaGo的变化。b：估值网络和不同策略网络的评估对照。棋局和结局是从人类专家博弈对局中採样的。每个棋局都是由一个单独的向前传递的估值网络vθ 评估的，或者100个走子的平均值，这些走子是由统一随机走子，或高速走子策略pπ 。或 SL 策略网络pδ ，或 RL 策略网络pρ 。图中。预測估值和博弈实际结局之间的平均方差随着博弈的进行阶段（博弈总共下了多少步）的变化而变化。

2 策略网络的强化学习

训练管道第二阶段的目标是通过策略梯度强化学习（RL）来提高策略网络。

强化学习策略网络pρ 在结构上和 SL策略网络是一样的。权重ρ 初始值也是一样的。ρ=δ 。

我们在当前的策略网络和随机选择某先前一次迭代的策略网络之间博弈。从一个对手的候选池中随机选择，能够稳定训练过程，防止过度拟合于当前的策略。我们使用一个奖励函数 r(s)。对于全部非终端的步骤 t < T，它的值等于零。从当前棋手在步骤 t 的角度来讲，结果

客服电话

电子邮件

AlphaGo论文的译文，用深度神经网络和树搜索征服围棋：Mastering the game of Go with ...

前言：

译文

引言

1 策略网络的监督学习

2 策略网络的强化学习

请发表评论

全部评论

上一篇：

下一篇：

关于我们

产品与服务

解决方案

139-2527-9053