论文

SaPaVe:面向机器人视觉-语言-动作模型的主动感知与操作

主动感知与操作是机器人与复杂场景交互的关键。现有方法难以将语义驱动的主动感知与鲁棒的、视角不变的执行统一起来。我们提出SaPaVe,一个端到端框架,以数据高效的方式联合学习这些能力。该方法将相机动作与操作动作解耦,而非置于共享动作空间,并采用自下而上的训练策略:首先在大规模数据集上训练语义相机控制,随后利用混合数据联合优化两种动作类型。为支持该框架,我们引入ActiveViewPose-200K,包含20万图像-语言-相机运动对的语义相机运动学习数据集,以及一个3D几何感知模块,在动态视角下提升执行鲁棒性。我们还提出ActiveManip-Bench,首个超越固定视角设置评估主动操作的基准。在仿真与真实环境中的大量实验表明,SaPaVe优于近期视觉-语言-动作模型如GR00T N1和π₀,在真实任务中成功率提高多达31.25%。这些结果表明,当采用解耦但协调的策略训练时,紧密耦合的感知与执行能够实现高效且可泛化的主动操作。项目页面:https://lmzpai.github.io/SaPaVe

发布时间 Mar 12, 2026

来源 Manipulation and Humanoids

会议 / 平台 arXiv

作者 Mengzhen Liu, Enshen Zhou, Cheng Chi, Yi Han, Shanyu Rong, Liming Chen, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

操作
查看原文