谷歌联合高校发布机器人导航系统LM-Nav，可结合三种预训练模型，无需用户注释即可执行自然语言命令

 收藏

关键词：发布机器人谷歌

资讯来源：DeepTech深科技

发布时间： 2022-07-30

在机器人领域中，最大的挑战之一就是如何让机器人实时听懂人类指令，并立即根据新指令、以及环境变化做出反应，实时进行新规划并完成人类要求的任务。

这一过程对于机器人有着方方面面的要求，例如在依照人类指令导航到达目的地这一任务中，不仅需要机器人理解人类的指令，即要求其有自然语言理解能力，还得具备实时感知周围环境、即视觉识别能力，而且还需要机器人能将语言指令与感知到的环境互相“翻译”，才能最终按照人类指示的要求到达目的地。

针对这类任务，该领域此前的主要解决方法是：让机器人理解文本时，需要事先训练它从大量带有文本指令注释的类似任务中进行学习。但是，这一方法需要注释数据，进而会消耗大量成本，最终阻碍了机器人在更多场合的应用。

而最近越来越多的研究表明，如下新方法是可行的：即在没有事先标记的情况下，通过自我监督训练的目标条件策略，来训练机器人从大型的、未标记的数据集中进行基于视觉的导航的学习。而且，该具有更好的可扩展性与鲁棒性。

正是在这一思路的启发下，谷歌研究人员开发了大型模型导航系统 LM-Nav 系统，该系统结合了上面所说的两种方法的优点，利用了预训练模型的功能，即使在导航数据没有经过任何用户注释的前提下，也可让机器人导航系统通过其自我监督系统，去理解自然语言指令并完成任务要求。

尤其重要的是，该系统内的预训练语言和视觉语言模型的泛化能力非常强大，从而使机器人理解并执行更为复杂的高级指令。

近日，相关论文以《LM-Nav：具有大型预训练语言、视觉和动作模型的机器人导航系统》（LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action）为题发表在 arXiv 上，美国加州大学伯克利分校和波兰华沙大学一起参与了研究。

图｜LM-Nav 系统的概述：（a）视觉导航模型 VNM；（b）大型语言模型 LLM；（c）视觉和语言模型；（d）图像搜索算法通过分布推导通过目的地图像的最佳路线；（e）机器人使用 VNM 策略在现实世界中执行（来源：arXiv）

LM-Nav 导航系统包含三个大型预训练模型，分别用于进行语言处理、将图像与语言关联、以及视觉导航。具体如下：

首先，大型语言模型（Large language models，LLM）用于完成自然语言理解的任务，该模型经过了大型网络文本语料库上的训练，可以将用户给出的文本指令解析为一系列地标。LM-Nav 导航系统中选择的 LLM 正是知名的 GPT-3 模型。

其次，视觉和语言模型（Vision-and-language models，VLM）可以将图像和文本所表达的信息进行关联。在导航任务中，视觉和语言模型可将用户指令中的地标，与机器人视觉感知到的周边环境进行关联。据介绍，该系统选择的视觉和语言模型是美国人工智能研究公司 OpenAI 的 CLIP 模型。

第三，视觉导航模型（Visual navigation models，VNM）用于从其视觉观察的信息中直接进行导航工作，它可以将图像和之后执行的动作按时间进行关联。LM-Nav 系统选择了加州人工智能公司 DeepAI 的目标条件模型 ViNG 作为视觉导航模型。

图｜LM-Nav 导航系统（来源：arXiv）

简单来说，LM-Nav 导航系统的主要工作过程如下图所示。

图｜LM-Nav 导航系统的主要工作过程（来源：arXiv）

首先，系统以目的地环境的初始观察结果、以及用户给的文本指令作为输入，通过系统中的三个预训练模型得出执行计划：LLM 用于提取指令中的地标，VLM 用于将文本地标与图像关联，而 VNM 用于执行导航任务。正是有了这些，即使在复杂环境中，LM-Nav 也无需任何微调，完全根据实时视觉观察到的信息，来执行各种用户指令。

为对这一系统进行评估，研究人员将 LM-Nav 模型在机器人研究平台 Clearpath Jackal UGV 上进行部署和应用。在这一平台的传感器套件，包含了一个 6 自由度的 IMU、一个用于近似定位的 GPS 单元、一个车轮编码器，以及用于进行视觉观察捕捉的 170°视野前后 RGB 摄像头。

实验过程包括在不同难度的环境中，对该系统进行的 20 个导航测试，机器人共行走的总长度超过 6 千米。

图｜LM-Nav 系统的应用，要求机器人在实际环境中按照用户指令执行任务（来源：arXiv）

如上图，左侧文本中下划线部分，为 LLM 提取出的地标；中间俯视图中标记的路标，为通过 VLM 进行语言-图像关联的结果；右侧为按照 VNM 执行导航的实况。

图｜LM-Nav 系统与没有 VNM 的 GPS-Nav 系统的性能对比结果（来源：arXiv）

研究人员还引入了规划成功性、效率、平均人工干预次数等性能指标，以用于将 LM-Nav 的性能与 GPS-NAV 导航系统进行对比。结果显示，LM-Nav 在各方面的性能均优于 GPS-Nav 系统。

参考资料：

https://github.com/blazejosinski/lm_nav

#EmTech#现场，多位世界级科学家、科技公司领袖齐聚无锡，聚焦前沿科技，开展深挖新兴科技的碰撞对话。一起从这里，畅想新兴科技驱动下的无限可能。