谷歌联合高校发布机器人导航系统LM-Nav,可结合三种预训练模型,无需用户注释即可执行自然语言命令

收藏
关键词: 发布机器人谷歌
资讯来源:DeepTech深科技
发布时间: 2022-07-30


在机器人领域中,最大的挑战之一就是如何让机器人实时听懂人类指令,并立即根据新指令、以及环境变化做出反应,实时进行新规划并完成人类要求的任务。


这一过程对于机器人有着方方面面的要求,例如在依照人类指令导航到达目的地这一任务中,不仅需要机器人理解人类的指令,即要求其有自然语言理解能力,还得具备实时感知周围环境、即视觉识别能力,而且还需要机器人能将语言指令与感知到的环境互相“翻译”,才能最终按照人类指示的要求到达目的地。


针对这类任务,该领域此前的主要解决方法是:让机器人理解文本时,需要事先训练它从大量带有文本指令注释的类似任务中进行学习。但是,这一方法需要注释数据,进而会消耗大量成本,最终阻碍了机器人在更多场合的应用。


而最近越来越多的研究表明,如下新方法是可行的:即在没有事先标记的情况下,通过自我监督训练的目标条件策略,来训练机器人从大型的、未标记的数据集中进行基于视觉的导航的学习。而且,该具有更好的可扩展性与鲁棒性。


正是在这一思路的启发下,谷歌研究人员开发了大型模型导航系统 LM-Nav 系统,该系统结合了上面所说的两种方法的优点,利用了预训练模型的功能,即使在导航数据没有经过任何用户注释的前提下,也可让机器人导航系统通过其自我监督系统,去理解自然语言指令并完成任务要求。


尤其重要的是,该系统内的预训练语言和视觉语言模型的泛化能力非常强大,从而使机器人理解并执行更为复杂的高级指令。


近日,相关论文以《LM-Nav:具有大型预训练语言、视觉和动作模型的机器人导航系统》(LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action)为题发表在 arXiv 上,美国加州大学伯克利分校和波兰华沙大学一起参与了研究。


图|LM-Nav 系统的概述:(a)视觉导航模型 VNM;(b)大型语言模型 LLM;(c)视觉和语言模型;(d)图像搜索算法通过分布推导通过目的地图像的最佳路线;(e)机器人使用 VNM 策略在现实世界中执行(来源:arXiv


LM-Nav 导航系统包含三个大型预训练模型,分别用于进行语言处理、将图像与语言关联、以及视觉导航。具体如下:


首先,大型语言模型(Large language models,LLM)用于完成自然语言理解的任务,该模型经过了大型网络文本语料库上的训练,可以将用户给出的文本指令解析为一系列地标。LM-Nav 导航系统中选择的 LLM 正是知名的 GPT-3 模型。


其次,视觉和语言模型(Vision-and-language models,VLM)可以将图像和文本所表达的信息进行关联。在导航任务中,视觉和语言模型可将用户指令中的地标,与机器人视觉感知到的周边环境进行关联。据介绍,该系统选择的视觉和语言模型是美国人工智能研究公司 OpenAI 的 CLIP 模型。


第三,视觉导航模型(Visual navigation models,VNM)用于从其视觉观察的信息中直接进行导航工作,它可以将图像和之后执行的动作按时间进行关联。LM-Nav 系统选择了加州人工智能公司 DeepAI 的目标条件模型 ViNG 作为视觉导航模型。


图|LM-Nav 导航系统(来源:arXiv


简单来说,LM-Nav 导航系统的主要工作过程如下图所示。


图 |LM-Nav 导航系统的主要工作过程(来源:arXiv


首先,系统以目的地环境的初始观察结果、以及用户给的文本指令作为输入,通过系统中的三个预训练模型得出执行计划:LLM 用于提取指令中的地标,VLM 用于将文本地标与图像关联,而 VNM 用于执行导航任务。正是有了这些,即使在复杂环境中,LM-Nav 也无需任何微调,完全根据实时视觉观察到的信息,来执行各种用户指令。


为对这一系统进行评估,研究人员将 LM-Nav 模型在机器人研究平台 Clearpath Jackal UGV 上进行部署和应用。在这一平台的传感器套件,包含了一个 6 自由度的 IMU、一个用于近似定位的 GPS 单元、一个车轮编码器,以及用于进行视觉观察捕捉的 170°视野前后 RGB 摄像头。


实验过程包括在不同难度的环境中,对该系统进行的 20 个导航测试,机器人共行走的总长度超过 6 千米。


图|LM-Nav 系统的应用,要求机器人在实际环境中按照用户指令执行任务(来源:arXiv


如上图,左侧文本中下划线部分,为 LLM 提取出的地标;中间俯视图中标记的路标,为通过 VLM 进行语言-图像关联的结果;右侧为按照 VNM 执行导航的实况。


图|LM-Nav 系统与没有 VNM 的 GPS-Nav 系统的性能对比结果(来源:arXiv


研究人员还引入了规划成功性、效率、平均人工干预次数等性能指标,以用于将 LM-Nav 的性能与 GPS-NAV 导航系统进行对比。结果显示,LM-Nav 在各方面的性能均优于 GPS-Nav 系统。


参考资料:
https://github.com/blazejosinski/lm_nav
https://github.com/blazejosinski/lm_nav



#EmTech#现场,多位世界级科学家、科技公司领袖齐聚无锡,聚焦前沿科技,开展深挖新兴科技的碰撞对话。一起从这里,畅想新兴科技驱动下的无限可能。