论文

并非所有特征生而平等:视觉-语言-动作模型的机制研究

视觉-语言-动作(VLA)模型将感知、语言与运动控制集成于单一架构,但它们如何将多模态输入转化为动作仍不清楚。我们在跨越80M–7B参数的六个模型上,结合激活注入、稀疏自编码器(SAE)与线性探针,分析了394,000+条 rollout episodes 和四个基准。视觉通路在所有架构中主导动作生成:在空提示 episode 中注入基线激活可恢复几乎相同的行为,而跨任务注入能将机器人引导至源任务位置(99.8%的X-VLA episode 与源轨迹对齐),揭示与场景坐标绑定而非抽象任务表征的空间受限运动程序。语言敏感性取决于任务结构而非模型设计:当视觉上下文唯一指定任务时,语言被忽略;当同一场景存在多个目标时,语言变得关键(X-VLA libero_goal:正确提示94%→错误提示10%,而libero_object始终60–100%)。在三条多通路架构(PizHalf、SmolVLA、GR00T)中,专家通路编码运动程序,VLM通路编码目标语义(专家注入行为偏移达2倍),子空间注入证实二者占据可分离的激活子空间。对大多数架构,逐token SAE处理对动作保真至关重要,而X-VLA上均值池化反而提升保真。对比识别恢复82+操作概念,因果消融显示零效应率敏感区间为28–92%,与表征宽度无关。我们发布Action Atlas(https://action-atlas.com)供交互式探索全部六个模型的VLA表征。

发布时间 Mar 19, 2026

来源 Manipulation and Humanoids

会议 / 平台 arXiv

作者 Bryce Grant, Xijia Zhao, Peng Wang

操作
查看原文