论文

$Ψ_0$: 面向通用人形机器人运动-操作的开放基础模型

我们提出$Ψ_0$（Psi-Zero），一个用于应对挑战性人形机器人运动-操作任务的开放基础模型。现有方法常通过在人形机器人与人类数据上进行联合训练来解决这一根本问题，但我们指出，由于人类与人形机器人在运动学与动作上存在本质差异，该策略并非最优，导致尽管数据量庞大，数据利用效率与模型性能仍不尽如人意。为此，\ours\将学习过程解耦，以最大化异构数据源的利用率。具体而言，我们提出分阶段训练范式，并设定不同学习目标：首先，在大规模第一人称人类视频上自回归预训练VLM主干，以获得可泛化的视觉-动作表征；随后，在高质量人形机器人数据上后训练基于流的动作专家，以学习精确的机器人关节控制。我们的研究进一步揭示了一个关键却常被忽视的数据配方：与依赖含噪互联网片段或异构跨实体机器人数据集进行扩展的方法相反，我们证明，先在高质量第一人称人类操作数据上预训练，再在领域特定的真实人形轨迹上后训练，能够获得更优性能。大量真实实验表明，仅使用约800小时人类视频数据与30小时真实机器人数据，\ours\便取得最佳性能，在多项任务上的总体成功率比预训练数据量高出10$\times$以上的基线提升超过40%。我们将向社区开源整个生态系统，包括数据处理与训练流程、人形基础模型以及实时动作推理引擎。