DeepMind证明AlphaZero能模仿人类下象棋，并揭示训练过程中模型的行为变化

 收藏

关键词：揭示

资讯来源：DeepTech深科技

发布时间： 2022-11-23

一直以来，游戏都是验证 AI 功能的主要方式。为此，科学家不断寻找能够对 AI 科学问题进行模拟与测试的游戏。最终，国际象棋成为 AI 的试验场。

2017 年，DeepMind 推出了针对棋类游戏的强化学习算法 AlphaZero。它可以在没有人类监督的情况下，自动地从对弈数据中不断总结经验、从零开始学习最优的下棋策略，最终探索和设计出新的国际象棋套路。

最近，DeepMind 与谷歌大脑（Google Brain）团队合作开展了一项研究，回顾了国际象棋作为人工智能试验场的作用，并证明了 AlphaZero 网络模型能够学习国际象棋知识。

该团队展示出 AlphaZero 模型在训练过程中获取象棋知识的准确时间，以及这些知识在模型中的存储位置。并且，对该模型获取知识的行为进行了定性的分析。

概括地讲，此项研究的创新点在于提升了研究者对以下几个方面的理解：模型对人类国际象棋知识概念的编码、模型在训练过程中对知识的获取、利用编码后的象棋概念对价值函数的新诠释、AlphaZero 的进化与人类棋手行为之间的比较、AlphaZero 对象棋走法倾向的演变、以及对无监督概念学习的原理性验证。

近日，相关论文以《AlphaZero 对国际象棋知识的获取》（Acquisition of Chess Knowledge in AlphaZero）为题，发表在 PNAS 上[1]。

DeepMind 的人工智能领域专家托马斯·麦格拉思（ Thomas McGrath ）与 Google Brain 人工智能工程师安德烈·卡拉逊尼考夫（ Andrei Kapishnikov ）等为论文作者。此外，国际象棋大师弗拉基米尔•克拉姆尼克（ Vladimir Kramnik ）也参与了此项目。

图丨相关论文（来源：PNAS）

为深入探究 AlphaZero 学习并获取人类国际象棋概念知识的过程，研究者采用了三种方法。

他们不仅探索了 AlphaZero 模型是否能够线性解码人类国际象棋概念，还验证了在整个训练过程中 AlphaZero 神经网络的行为变化，并且直接调查了网络架构中的每一层神经元的参数及其激活情况。

AlphaZero 网络模型模仿人类下象棋

根据论文内容，AlphaZero 网络模型由残差网络（ResNet）和蒙特卡洛搜索树（Monte Carlo Tree Search，MCTS）构成，能够不断学习并模仿人类下棋。

ResNet 中包含两个先后经过批归一化和线性整流激活函数的卷积层。而 MCTS 能够使用神经网络反复评估棋盘所处状态，并更新其行为选择策略。

图丨AlphaZero 网络结构（来源：PNAS）

首先，AlphaZero 网络模型的输入为实值向量 z ⁰ ，该向量是表示象棋的排布方式的函数。z⁰ 中的前 12 个尺寸为 8×8 的通道是二值的，分别编码了玩家和对手的王、后、车、象、马和兵的位置（共 6 类棋子，每类棋子双方各占 1 个通道，共计 12 个通道）。

后面是 2 个 8×8 的二值通道，表示局面重复次数（采用三次局面重复和棋制）；1 个通道用来表示当前是我方还是对方回合；再加上 4 个通道用来统计双方能否短易位或者长易位；最后 2 个通道是棋子不可逆移动次数计数器（适用于 50 步限着规则）和棋子总移动次数计数器。

输出函数 p，v =f _θ （z ⁰ ）是模型的输出，从训练数据中学习从而能够预测到的两个量：即从当前棋盘状态预测对弈的预期结果 v，以及下一步各个棋子移动的概率分布 p。这两个量都能够在 MCTS 中被搜索到，并被称为“价值头”和“策略头”。

AlphaZero 模型的训练过程如下：

首先，让模型自我对弈一定次数，并根据每次对弈的结果，给之前的每一步棋打上“导致胜”或者“导致负”的标签，这就产生了一定量的训练数据；然后，保存并复制上一步的模型，利用上一步的数据对复制的模型进行训练优化；

接着，在训练得到的模型与先前保存的模型之间进行对弈，只保留胜利者进入下一轮更新迭代；最后，重复进行第一步。

总之，AlphaZero 模型能够利用反复自我对弈时产生的数据，并不断训练学习，进而生成新的、更强的模型。

验证 AlphaZero 模型的可行性

接下来，研究者采用“稀疏线性探测法”确定 AlphaZero 网络能够展现人类象棋观念的程度与范围。不仅如此，他们还寻找出该探测方法的局限性，并探索了未来的研究方向。

图丨What-When-Where 图用于测试 AlphaZero 的下棋水平（来源：PNAS）

为验证 AlphaZero 的性能，研究团队还抽取十万盘游戏对 AlphaZero 的下棋水平进行测试。结果表明，当下棋的步数与神经网络模型中的模块数增加时，AlphaZero 获得的分数也在逐渐上升。

图丨回归残差模式的证据（来源：PNAS）

由于实验中出现了残差（实际观察值与估计值之间的差），研究者根据散点的分布分析残差出现的原因和具体位置。

图 | AlphaZero 和人类下棋步骤比较（来源：PNAS）

最后，研究者对比分析了 AlphaZero 下国际象棋和人类下棋模式的演变与进展。结果表明，随着时间推移，AlphaZero 下棋路径选择范围在缩小，而人类下棋路数随着历史逐渐增加。

总地来说，该论文详细描述了 AlphaZero 神经网络从最初开始训练下棋到训练结束的全部流程。

论文作者通过实验验证了该神经网络中出现了人类的国际象棋概念，并发现了每个步骤的具体训练时间与运算位置。该研究为科学家探索 AI 模仿人类行为的规律提供了一定的理论支撑。

支持：王贝贝

参考资料：
1.Thomas McGrath,Andrei Kapishnikov,Nenad Tomašev,Adam Pearce,Demis Hassabis,Been Kim,Ulrich Paquet,Vladimir Kramnik.PNAS.（2022） https://www.pnas.org/doi/10.1073/pnas.2206625119
https://twitter.com/weballergy/status/1461281358324588544

由 DeepTech 携手《麻省理工科技评论》重磅推出的《科技之巅：全球突破性技术创新与未来趋势（20 周年珍藏版）》已开启预售！点击下方海报可购买图书！