您还不是认证园区!
赶快前去认证园区吧!
机器之心专栏
机器之心编辑部
大模型工具学习系统性综述 + 开源工具平台,清华、人大、北邮、UIUC、NYU、CMU 等联合发布。
-
论文链接:https://arxiv.org/abs/2304.08354 -
BMTools 工具包:https://github.com/OpenBMB/BMTools -
工具学习论文列表:https://github.com/thunlp/ToolLearningPapers
-
工具增强学习(Tool-augmented Learning),利用各种工具的执行结果,增强基础模型性能。在这一范式中,工具执行结果被视为辅助生成高质量输出的外部资源。 -
工具导向学习(Tool-oriented Learning),将学习过程重点从增强模型性能转向工具执行本身。这一类研究关注开发能够代替人类控制工具并进行序列决策的模型。
-
工具集(Tool Set):可供模型使用的各种工具。从交互接口的视角可以分为三类:基于物理交互的工具、基于 GUI 交互的工具、基于程序交互的工具。 -
控制器(Controller):通常使用基础模型建模,负责接收用户的指令,并根据这些指令制定可执行的计划并调用工具执行。 -
感知器(Perceiver):负责接收来自环境和用户的反馈信息,并将其汇总给控制器。 -
环境(Environment):模型所处的场景,包括物理环境和虚拟环境等。
-
工具间的协同配合:为了完成复杂任务,模型不仅需要理解各个工具的功能,还应该理解它们之间的相互作用和依赖关系。这有助于控制器更有效地使用工具,确保任务的顺利完成。 -
并行执行:对于彼此不存在依赖关系的子任务,模型需要具有并行执行的能力以提高执行效率。这将有助于在有限的时间内完成更多任务,提高整体性能。 -
多智能体协作:复杂任务通常需要多个智能体彼此协作,在这种情况下,每个智能体都具有其独特的能力和专业知识,彼此协作可以实现更高效和有效的问题解决。因此,探索多智能体协作机制对于提升控制器在复杂任务中的表现具有重要意义。
-
从演示中学习:模型模仿人类使用工具,可采用监督学习、半监督学习或自监督学习来实现。 -
从反馈中学习:环境或人类的反馈可以帮助模型理解其行为的结果并调整其行为,据此改进其工具使用策略,从而增强模型的使用工具能力。强化学习便是实现从反馈中学习的一个代表性解决方案。
-
语义接口:模型通过使用特定的文本片段(如动作名称)作为动作触发器,从而来操作工具。 -
GUI 接口:模型模仿人类使用图形界面(GUI)来与工具交互。 -
编程接口:模型通过编写代码来使用工具。这种方式具有广阔的应用前景,首先是因为编写代码可以实现复杂的工具使用逻辑,其次通过执行程序可以更加方便地调用外部工具。
-
元工具学习:元工具学习体现了模型的元认知能力,使其能够反思自身的学习过程并在必要时调整新的工具使用策略。通过元认知,模型可以识别工具使用策略中的基本原则或共同模式,并将其迁移到新的任务或领域中去。 -
课程工具学习:课程工具学习则采用逐步学习的方法,让模型从简单的工具开始学习,然后逐渐学习更复杂的工具。这种方法有助于模型理解复杂工具,将其视为简单工具的进阶版。通过课程工具学习,模型能够更有效地识别抽象工具间的共性和差异,从而实现知识和技能的迁移。
-
工具学习的安全性:在期待基础模型与工具学习结合所带来的生活改变之前,审视其中潜在的风险尤为重要。团队强调了需要防止恶意用户误导模型调用工具,以及提升模型使用工具的可信度等问题。 -
AI 创造工具:基础模型可能具有自发创造工具的潜力。一直以来,创造和使用工具被认为是人类智能的独特特征,而基础模型的出现可能颠覆这一观念。越来越多的证据表明,创造工具的能力不再是人类专有的领域。 -
工具学习个性化:模型通常在通用文本语料库上训练,并使用广泛定义的人类偏好进行校准。然而,这种方法无法满足具有不同需求的用户的个性化需求。探索如何实现个性化的工具学习将成为未来研究的重要课题。 -
知识冲突:引入工具后,模型需要解决来自不同来源的知识冲突问题,包括模型自身、外部知识库等。解决不同知识库间的知识冲突,以实现知识的有效整合,是迎接工具学习挑战的关键一步。 -
开放性问题:最后,团队提出了一系列开放性问题,包括:工具能力是否应当内化进模型中?如何准确评判模型的工具使用能力?如何规避工具学习场景下的安全性、隐私性问题?如何在工具学习框架下促进更好的人机协同?
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com