论文

OmniVTA：面向接触丰富机器人操作的视觉-触觉世界建模

接触密集的操控任务，如擦拭和装配，需要准确感知接触力、摩擦变化及状态转换，这些无法仅凭视觉可靠推断。尽管视-触觉融合操控日益受到关注，进展仍受两大持续限制：现有数据集规模小、任务覆盖窄，且当前方法将触觉信号视为被动观测，而非用于显式建模接触动力学或实现闭环控制。本文提出\textbf{OmniViTac}，一个大规模视-触觉-动作数据集，包含21,000+条轨迹，涵盖86项任务、100+个物体，按六种具物理基础的交互模式组织。基于此数据集，我们提出\textbf{OmniVTA}，一种基于世界模型的视-触觉操控框架，整合四个紧密耦合模块：自监督触觉编码器、双流视-触觉世界模型用于预测短程接触演化、接触感知融合策略生成动作，以及60Hz反射控制器在闭环中修正预测与实测触觉信号的偏差。覆盖全部六大交互类别的真机实验表明，OmniVTA优于现有方法，并能泛化到未见物体与几何构型，证实将预测性接触建模与高频率触觉反馈结合对接触密集操控的价值。所有数据、模型与代码将在项目网站https://mrsecant.github.io/OmniVTA公开。