DeepMind证明AlphaZero能模仿人类下象棋,并揭示训练过程中模型的行为变化

收藏
关键词: 揭示
资讯来源:DeepTech深科技
发布时间: 2022-11-23

一直以来,游戏都是验证 AI 功能的主要方式。为此,科学家不断寻找能够对 AI 科学问题进行模拟与测试的游戏。最终,国际象 棋成为 AI 的试验场。

2017 年,DeepMind 推出了针对棋类游戏的强化学习算法 AlphaZero。它可以在没有人类监督的情况下,自动地从对弈数据中不断总结经验、从零开始学习最优的下棋策略,最终探索和设计出新的国际象棋套路。

最近,DeepMind谷歌大脑(Google Brain)团队合作开展了一项研究,回顾了国际象棋作为人工智能试验场的作用,并证明了 AlphaZero 网络模型能够学习国际象棋知识。

该团队展示出 AlphaZero 模型在训练过程中获取象棋知识的准确时间,以及这些知识在模型中的存储位置。并且,对该模型获取知识的行为进行了定性的分析。

概括地讲,此项研究的创新点在于提升了研究者对以下几个方面的理解:模型对人类国际象棋知识概念的编码、模型在训练过程中对知识的获取、利用编码后的象棋概念对价值函数的新诠释、AlphaZero 的进化与人类棋手行为之间的比较、AlphaZero 对象棋走法倾向的演变、以及对无监督概念学习的原理性验证。

近日,相关论文以《AlphaZero 对国际象棋知识的获取》(Acquisition of Chess Knowledge in AlphaZero)为题,发表在 PNAS 上[1]。

DeepMind 的人工智能领域专家托马斯·麦格拉思( Thomas McGrath )与 Google Brain 人工智能工程师安德烈·卡拉逊尼考夫( Andrei Kapishnikov )等为论文作者。此外,国际象棋大师弗拉基米尔•克拉姆尼克( Vladimir Kramnik )也参与了此项目。

图丨相关论文(来源:PNAS

为深入探究 AlphaZero 学习并获取人类国际象棋概念知识的过程,研究者采用了三种方法。

他们不仅探索了 AlphaZero 模型是否能够线性解码人类国际象棋概念,还验证了在整个训练过程中 AlphaZero 神经网络的行为变化,并且直接调查了网络架构中的每一层神经元的参数及其激活情况。

AlphaZero 网络模型模仿人类下象棋

根据论文内容,AlphaZero 网络模型由残差网络(ResNet)和蒙特卡洛搜索树(Monte Carlo Tree Search,MCTS)构成,能够不断学习并模仿人类下棋。

ResNet 中包含两个先后经过批归一化和线性整流激活函数的卷积层。而 MCTS 能够使用神经网络反复评估棋盘所处状态,并更新其行为选择策略。

图丨AlphaZero 网络结构(来源:PNAS

首先,AlphaZero 网络模型的输入为实值
向量 z 0 ,该向量是表示象棋的排布方式的函数。z0 中的前 12 个尺寸为 8×8 的通道是二值的,分别编码了玩家和对手的王、后、车、象、马和兵的位置(共 6 类棋子,每类棋子双方各占 1 个通道,共计 12 个通道)。

后面是 2 个 8×8 的二值通道,表示局面重复次数(采用三次局面重复和棋制);1 个通道用来表示当前是我方还是对方回合;再加上 4 个通道用来统计双方能否短易位或者长易位;最后 2 个通道是棋子不可逆移动次数计数器
(适用于 50 步限着规则) 和棋子总移动次数计数器。

输出函数 p,v =f θ (z 0 )是模型的输出,从训练数据中学习从而能够预测到的两个量:即从当前棋盘状态预测对弈的预期结果 v,以及下一步各个棋子移动的概率分布 p。这两个量都能够在 MCTS 中被搜索到,并被称为“价值头”和“策略头”。

AlphaZero 模型的训练过程如下:

首先,让模型自我对弈一定次数,并根据每次对弈的结果,给之前的每一步棋打上“导致胜”或者“导致负”的标签,这就产生了一定量的训练数据;然后,保存并复制上一步的模型,利用上一步的数据对复制的模型进行训练优化;

接着,在训练得到的模型与先前保存的模型之间进行对弈,只保留胜利者进入下一轮更新迭代;最后,重复进行第一步。


总之,AlphaZero 模型能够利用反复自我对弈时产生的数据,并不断训练学习,进而生成新的、更强的模型。


验证 AlphaZero 模型的可行性


接下来,研究者采用“稀疏线性探测法”确定 AlphaZero 网络能够展现人类象棋观念的程度与范围。不仅如此,他们还寻找出该探测方法的局限性,并探索了未来的研究方向。


图丨What-When-Where 图用于测试 AlphaZero 的下棋水平(来源:PNAS

为验证 AlphaZero 的性能,研究团队还抽取十万盘游戏对 AlphaZero 的下棋水平进行测试。结果表明,当下棋的步数与神经网络模型中的模块数增加时,AlphaZero 获得的分数也在逐渐上升。

图丨回归残差模式的证据(来源:PNAS

由于实验中出现了残差(实际观察值与估计值之间的差),研究者根据散点的分布分析残差出现的原因和具体位置。

图 | AlphaZero 和人类下棋步骤比较(来源:PNAS

最后,研究者对比分析了 AlphaZero 下国际象棋和人类下棋模式的演变与进展。结果表明,随着时间推移,AlphaZero 下棋路径选择范围在缩小,而人类下棋路数随着历史逐渐增加。

总地来说,该论文详细描述了 AlphaZero 神经网络从最初开始训练下棋到训练结束的全部流程。

论文作者通过实验验证了该神经网络中出现了人类的国际象棋概念,并发现了每个步骤的具体训练时间与运算位置。该研究为科学家探索 AI 模仿人类行为的规律提供了一定的理论支撑。


支持:王贝贝


参考资料:
1.Thomas McGrath,Andrei Kapishnikov,Nenad Tomašev,Adam Pearce,Demis Hassabis,Been Kim,Ulrich Paquet,Vladimir Kramnik.PNAS.(2022)
https://www.pnas.org/doi/10.1073/pnas.2206625119
https://twitter.com/weballergy/status/1461281358324588544


由 DeepTech 携手《麻省理工科技评论》重磅推出的《科技之巅:全球突破性技术创新与未来趋势(20 周年珍藏版)》已开启预售!点击下方海报可购买图书!