MIT本科生在NeurIPS 2021发论文,研发机器人基准“健身房”,可进化出30多种运动能力,相关代码即将开源

收藏
关键词: 研发
资讯来源:DeepTech深科技
发布时间: 2021-12-26

本科生就在 NeurIPS 发一作论文?麻省理工学院(MIT)的两名学生贾格迪普·巴蒂亚(Jagdeep Bhatia)和霍利·杰克逊(Holly Jackson)做到了。

图 | 左:霍利·杰克逊(Holly Jackson);右:贾格迪普·巴蒂亚(Jagdeep Bhatia)(来源:资料图)

他们给机器人研发出一款“在线健身房”,一经训练即可进化出 30 多种运动能力,堪比机器人的“小型奥运会”。

动图 | 投掷东西(来源:NeurIPS 2021)

日前,相关论文以《进化健身房:软体机器人进化的大型基准》(Evolution Gym: A Large-Scale Benchmark for Evolving Soft Robots)为题,发表在全球人工智能顶会 NeurIPS 2021 上[1]。


图 | 相关论文(来源:NeurIPS 2021)

担任论文第三作者的是中国留学生田韵声,他目前是 MIT 计算机科学与人工智能实验室(CSAIL)三年级在读博士生,导师为沃伊切赫·马图斯克(Wojciech Matusik)教授,研究领域包括计算机图形学、机器学习与机器人。2019 年,田韵声本科毕业于南开大学,期间由任博教授指导,后曾在微软亚洲研究院和香港大学担任研究实习生。

图 | 田韵声(来源:田韵声)

如果想让机器人完成一些任务,你可能会针对特定任务,设计出特定的机器人形态。比如设计一个扔东西的机器人,并且扔得越远越好,你可能会想象出一个有胳膊有手的人形机器人,但一般很难想到这样的机器人:

这个机器人同样能完成扔东西的任务,并且完成得还不错。虽然它的形状十分怪异,像是由乐高搭起来的一样。实际上这是因为它的形态和动作,都是由算法在计算机里进化出来的。

(来源:NeurIPS 2021)

在不依赖人提供任何初始形态的前提下,算法可以自主根据任务需要,进化出适合任务的身体结构和动作,并且不断通过进化自己,让任务完成得越来越好。在上面案例中,当机器人学会“进化”自己的身体之后,灰色矩形块被扔得越来越远。

对于设计好的机器人,以往多数研究主要集中在如何开发有效的控制算法,比如大家熟知的波士顿动力机器狗,它的形态是由工程师根据经验设计出来的。

动图 | 自我翻转(来源:NeurIPS 2021)

研发人员把大量时间花在开发有效的控制算法上,来让机器狗跑得快、跑得稳定不容易摔倒等。但是,田韵声认为这种设计好的机器人形态并非是最优的。在优化机器人的大脑、也就是控制算法的同时,只有也对身体即形态结构进行优化,才能让机器人的能力更上一层楼。

基于这一出发点,他和团队开发了大规模基准测试平台 Evolution Gym,旨在让更多人关注如何共同设计机器人的大脑和身体,通过算法共同进化两者。

视频 | Evolution Gym的介绍(来源:NeurIPS 2021)

据悉,Evolution Gym 专门为软体机器人而开发,涵盖 30 多个不同的任务环境,包括跑步、上台阶、攀爬、搬运物体等。

图 | 往上爬(来源:NeurIPS 2021)

Evolution Gym 中的机器人看起来像是柔软、可移动的俄罗斯方块,整体呈网格状结构,由许多个“细胞”作为基本单元组成,其中包括可以自由形变的软体细胞、坚硬的刚体细胞、以及可以主动收缩或扩张的致动器细胞。这种灵活的形态,使得机器人可以自由“进化”其形状,最终在不同地形上完成一系列运动和操纵物体等任务。

这种可同时“进化”形态与控制的算法被称为协同设计(co-design)。具体而言,田韵声团队用深度强化学习去优化机器人的控制,并采用遗传算法、贝叶斯优化等方法,根据控制器的表现作为反馈信号来优化机器人的形态。整个进化过程是在控制优化和形态优化之间不断迭代进行,机器人可以像人类一样在环境中通过反复试验不断理解任务,并最终进化出更适合任务的形态。


(来源:NeurIPS 2021)

尽管机器人是从头开始自主进化的,并且除了任务本身之外,没有任何人类提供的先验知识,但在“进化”的过程中,它们经常会“进化”出一些类似于现有自然生物的器官或是整体形态,同时性能优于人工设计的机器人。

如下图所示,搬运工机器人在优化到第 10 代的时候,不光进化出了两条腿,还在身体上方进化出了个凹槽用来放置物体,并能搬运物体向前移动。在优化到第 30 代时,在成功搬运物体的同时,它的跑速已比第 10 代快得多。

(来源:NeurIPS 2021)

田韵声表示,虽然学界已有团队尝试共同进化机器人的形态和控制,但只集中于一些较小规模的测试相对以及简单的任务,此前尚无大规模测试平台可涵盖几十种复杂多样的任务。并且,他和团队在 Evolution Gym 平台上测试、评估了当前最前沿的算法,结果发现虽然它们能对简单任务“进化”出合理的机器人形态,但是在困难任务上比如穿越崎岖不平且晃动的地面时,这些算法仍然难以优化出能成功完成任务的机器人。

所以该研究的两个最终目的是:一是希望 Evolution Gym 可作为一个初步实验平台,从最基本的细胞结构开始,帮助研究人员发掘出更智能、更高性能的机器人形态,甚至是很多全新的、意想不到的形态,并且反过来“指导”人类去设计高性能机器人;二是作为一个大规模基准测试平台,它可帮助人们开发出更强大的人工智能算法,以便进行高效协同设计,从而让机器人快速进化到足以完成最具挑战性的任务。


(来源:NeurIPS 2021)

由两位MIT本科生牵头并推进项目


田韵声表示,他们的出发点是希望通过一个标准化大规模的平台,领域最前沿的水平做出严谨衡量,并通过快速物理模拟以及多样任务设计来给研究人员提供方便。

因此,从一开始研究目标和任务都很明确,当实验室大多数博士生忙于自己的项目时,田韵声所在团队联系了两位 MIT 本科生,也就是前文的贾格迪普·巴蒂亚(Jagdeep Bhatia)和霍利·杰克逊(Holly Jackson)来牵头并推进项目。

贾格迪普花了几个月时间从头写了模拟系统,霍利这边开发出了很多有意思的环境。田韵声则和实验室另外一名师兄徐捷指导他们,共同实现算法并撰写论文。

动图 | 做运动(来源:NeurIPS 2021)

在投稿截止日期大约半个月前,当时田韵声刚从美国飞回国内,在隔离酒店里跟其他在美国的合作者们一起昼夜不分地推进项目。

适逢好几个实验都需要在云服务器上跑,并且时间非常紧,由于时差的原因,一天 24 小时里团队里都有人醒着,他们一刻不停地监控实验在服务器上的状态,一旦旧的实验结束,立马续上新的实验。而且两位本科生刚好要准备期末考试,导致他们到考试前一天才有空复习。

如果中稿算是一种成功的话,那他觉得这份成功归功于团队每个人的认真负责,使得项目推进非常高效,虽然还有很多值得改进的空间,但是最终得到了审稿人的肯定。

动图 | 做“俯卧撑”(来源:NeurIPS 2021)

下一步将为机器研发“形态发育“能力


未来,该研究还有很多值得探索的方向,目前的平台只模拟了二维软体机器人,原因在于基于强化学习的协同设计需要大量计算资源,机器人需要跟模拟环境进行上千万次的交互,因此二维在物理模拟上比三维要快得多,可以在更少时间内收集更多的数据去学习,从而让开发者更快地迭代算法开发。

但对机器人来说,它最终还是要在三维世界中实际制造出来,所以如何对软体机器人进行高效的三维仿真与优化,是一个必须要考虑的问题。

动图 | 翻跟头(来源:NeurIPS 2021)

另外一个研究方向是如何让机器人具有“形态发育(morphological development)“的能力,即不再局限于单一任务,而是当机器人具备解决更复杂任务的经验后,让它变得更智能。比如,让机器人学会行走,其次是学会搬运物体、爬楼梯等。

总之,他们希望通过这一系列的学习,让机器人的身体和大脑都“发育”得更加智能,相比没有经过系列学习的机器人,可以完成更多挑战性任务。

-End-


参考:
1.Jagdeep Singh Bhatia, Holly Jackson, Yunsheng Tian, Jie Xu, Wojciech Matusik,Evolution Gym: A Large-Scale Benchmark for Evolving Soft Robots,NeurIPS 2021