论文

含义与测量：多智能体概率基础用于视觉-语言导航

与人类协作的机器人必须将自然语言目标转化为可执行的、具身化的决策。例如，执行“走到冰箱右侧两米处”这样的指令，需要在三维场景中对语义指称、空间关系和度量约束进行具身化。尽管最新的视觉语言模型（VLMs）在语义具身化方面表现强劲，它们并未被显式设计用于在物理定义的空间中推理度量约束。本文通过实验表明，当前基于VLM的具身化方法在面对复杂的度量-语义语言查询时表现不佳。为克服这一局限，我们提出MAPG（多智能体概率具身化），一种智能体框架，将语言查询分解为结构化子成分，并分别查询VLM以对每一成分进行具身化。随后，MAPG以概率方式组合这些具身化输出，在三维空间中生成度量一致、可执行的决策。我们在HM-EQA基准上评估MAPG，结果显示其性能持续优于强基线。此外，我们引入新基准MAPG-Bench，专门用于评估度量-语义目标具身化，填补了现有语言具身化评测的空白。我们还展示了真实机器人演示，表明在具备结构化场景表示时，MAPG可超越仿真环境实现迁移。