论文

含义与测量:多智能体概率基础用于视觉-语言导航

与人类协作的机器人必须将自然语言目标转化为可执行的、具身化的决策。例如,执行“走到冰箱右侧两米处”这样的指令,需要在三维场景中对语义指称、空间关系和度量约束进行具身化。尽管最新的视觉语言模型(VLMs)在语义具身化方面表现强劲,它们并未被显式设计用于在物理定义的空间中推理度量约束。本文通过实验表明,当前基于VLM的具身化方法在面对复杂的度量-语义语言查询时表现不佳。为克服这一局限,我们提出MAPG(多智能体概率具身化),一种智能体框架,将语言查询分解为结构化子成分,并分别查询VLM以对每一成分进行具身化。随后,MAPG以概率方式组合这些具身化输出,在三维空间中生成度量一致、可执行的决策。我们在HM-EQA基准上评估MAPG,结果显示其性能持续优于强基线。此外,我们引入新基准MAPG-Bench,专门用于评估度量-语义目标具身化,填补了现有语言具身化评测的空白。我们还展示了真实机器人演示,表明在具备结构化场景表示时,MAPG可超越仿真环境实现迁移。

发布时间 Mar 19, 2026

来源 Robotics Core

会议 / 平台 arXiv

作者 Swagat Padhan, Lakshya Jain, Bhavya Minesh Shah, Omkar Patil, Thao Nguyen, Nakul Gopalan

查看原文