当地时间 2 月 9 日,索尼表示,其创建的名为 Gran Turismo Sophy(GT Sophy)的 AI 代理,能够在赛车模拟游戏《GT 赛车》(Gran Turismo)中击败世界冠军级别的人类玩家。
相关论文以《使用深度强化学习超越 Gran Turismo 冠军车手》(Outracing champion Gran Turismo drivers with deep reinforcement learning)为题发表在最新一期 Nature 封面[1]。
(来源:Nature)
如今的 AI 技术通常借助计算机神经网络来模仿人类大脑的工作方式。对 AI 进行实际应用时,比如与人类互动,通常都要求其能够做出实时决策。
之前,AI 在国际象棋、麻将和围棋等方面成功击败人类,但索尼表示,赛车驾驶更具挑战性,车手必须控制非线性动态的车辆和执行复杂的战术来超过或阻拦对手,这需要做出许多实时决定。
该论文描述了索尼研发的 AI,如何完成高难度挑战,包括使用其他车辆引起的气流来扰乱后续车辆并执行紧急制动。同时,该 AI 还利用空气动力学来实时预测其他赛车的轨迹。
索尼使用无模型、非策略的深度强化学习(Reinforcement Learning)和自主开发的混合场景训练(Mixed-scenario Training),反复试验,来训练 AI 在赛车驾驶的细微差别。之前,也有研究人员使用强化学习等方式来建模车辆动力学和训练 AI 学习驾驶政策,并在单人驾驶方面取得了较好成绩,但还没有一个研究解决最高水平的汽车比赛问题。
图 | GT Sophy 训练方法(来源:索尼)
在强化训练中,GT Sophy 根据不同的输入,比如车速、车轮方向、轨道曲率等,获得了正面或负面的反馈,其还通过自我复制适应了多种不同场景。
另外,要想在赛场获得胜利,车手须在“赛车控制、赛车战术、赛车礼仪和赛车策略”等方面有着高超的技巧和熟练度。
车手为了完全控制汽车,必须在对自己汽车状况和比赛赛道特性有详细的了解的基础上,建立直线加速和防守对手等所需的战术技能和战略思维,还要有高速精确的执行力。与此同时,车手必须遵守一定的体育精神。
为了让 GT Sophy 拥有足够的竞争力,索尼还构建了一个奖励函数。当它在赛道上持续前进时,会得到进度奖励;如果它出界或失去动力,则会被处罚。这些奖惩机制让 GT Sophy 能够收到积极反馈,以保持在赛道上高速、稳定驾驶。
在具体测试中,GT Sophy 与人类顶尖车手在《GT 赛车》中的三种赛道进行了比赛,分别为 Dragon Trail Seaside、Lago Maggiore GP、Circuit de la Sarthe。
图 | 三种比赛场地(来源:索尼)
据了解,《GT 赛车》由索尼与国际汽车联合会(Federation Internationale de l’Automobile,FIA)合作设计。该游戏配置有最新的车辆动力学模拟,模拟了空气阻力、轮胎摩擦、悬架运动引起的方向变化等,并结合了现实生活中赛车的技术支持,能够较为真实地再现现实中汽车的各种细节。
图 | 《GT 赛车》(来源:索尼)
《GT 赛车》在全球拥有超过 400000 人的电子竞技社区,有着一个公平的赛车环境。其也为机器学习进行实验提供了一个高度现实模拟的场所。
据了解,GT Sophy 的大规模训练于 2021 年 1 月开始。在与各种研究团队成员和《GT 赛车》车手对抗后,2021 年 7 月,GT Sophy 与四位包括《GT 赛车》赛事“三冠王”宫园拓真(Takuma Miyazono)在内的世界顶级车手进行了第一次比试,该场由人类获胜。
这之后,索尼改进训练机制、增加网络规模,并对一些特征和奖励进行了小的修改,提高了对手的数量,在 2021 年 10 月的第二个比赛日,GT Sophy 轻松战胜了人类。
图 | 比赛场景(来源:索尼)
不过,索尼也表示,尽管 GT Sophy 在比赛中表现出了较为全面的驾驶技能,并最终获胜,但它仍有许多地方需要改进,特别是在战略决策方面。例如,GT Sophy 可能会在相同赛道上留下较多空间,而给到对手反超的机会。
GT Sophy 能够在模拟赛车这种实时、连续控制和高度真实、复杂的物理环境中获得巨大成功,这一结果可以被看作 AI 持续发展的又一例证,也表明在汽车赛道等类型上训练比人类更加优秀的 AI 是可能的。
而像 GT Sophy 这样的 AI 有潜力使人们在赛车游戏中得到更加愉快的体验,同时,也能为专业车手提供现实的、高水平的竞争和发现新的赛车技术。
最后,值得一提的是,索尼团队还认为,本次研究成果还可应用于空中无人机、自动驾驶汽车等系统中。
-End-
参考:
1.Wurman, P.R., Barrett, S., Kawamoto, K. et al. Outracing champion Gran Turismo drivers with deep reinforcement learning. Nature 602, 223–228 (2022). https://doi.org/10.1038/s41586-021-04357-7
https://www.sie.com/en/blog/gran-turismo-sophy/
https://www.gran-turismo.com/us/gran-turismo-sophy/