在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
1、整体解读AlphaGo Zero中使用的是强化学习方法,使用的深度神经网络记为 (其中 是网络的参数)。网络的输入是棋盘状态(中表示了当前玩家落子的信息,对手的落子信息,棋盘最后一步落子的信息,当前的棋盘转态谁是先手等信息,即棋盘的历史信息和当前信息)。网络的输出是,其中是当前玩家在局面状态下,即将要选择落子到每一步的概率,所以是一个向量,假设局面是8*8的五子棋,则是长度为64的向量,而则是一个标量的评估值,估计当前玩家从状态 获胜的概率,的取值范围是,从当前玩家的角度看,分别代表当前玩家输了,平局,赢了(为了方便描述,下面的解读都以8*8的五子棋作为说明实例。)值得注意的是,这个网络将策略网络(输出的部分)和价值网络(输出的部分)结合在一起而形成单一架构。该网络由许多具有批量归一化的卷积层和残余块等组成。 如图.1所示,在每一个的状态中都首先执行蒙特卡洛(MCTS)搜索得出每次即将要移动的概率(跟前面介绍的其实意义相同,只不过是MCTS输出的结果,而是神经网络输出的结果),这里的MCTS跟纯的MCTS搜索不同,它是在神经网络 的指导下进行的搜索。(下面部分详细讲解)。 图1.a.Self-Play表示的过程如下:
全部评论
专题导读
热门推荐
热门话题
阅读排行榜
|
请发表评论