论文

SaPaVe：面向机器人视觉-语言-动作模型的主动感知与操作

主动感知与操作是机器人与复杂场景交互的关键。现有方法难以将语义驱动的主动感知与鲁棒的、视角不变的执行统一起来。我们提出SaPaVe，一个端到端框架，以数据高效的方式联合学习这些能力。该方法将相机动作与操作动作解耦，而非置于共享动作空间，并采用自下而上的训练策略：首先在大规模数据集上训练语义相机控制，随后利用混合数据联合优化两种动作类型。为支持该框架，我们引入ActiveViewPose-200K，包含20万图像-语言-相机运动对的语义相机运动学习数据集，以及一个3D几何感知模块，在动态视角下提升执行鲁棒性。我们还提出ActiveManip-Bench，首个超越固定视角设置评估主动操作的基准。在仿真与真实环境中的大量实验表明，SaPaVe优于近期视觉-语言-动作模型如GR00T N1和π₀，在真实任务中成功率提高多达31.25%。这些结果表明，当采用解耦但协调的策略训练时，紧密耦合的感知与执行能够实现高效且可泛化的主动操作。项目页面：https://lmzpai.github.io/SaPaVe