论文

并非所有特征生而平等：视觉-语言-动作模型的机制研究

视觉-语言-动作（VLA）模型将感知、语言与运动控制集成于单一架构，但它们如何将多模态输入转化为动作仍不清楚。我们在跨越80M–7B参数的六个模型上，结合激活注入、稀疏自编码器（SAE）与线性探针，分析了394,000+条 rollout episodes 和四个基准。视觉通路在所有架构中主导动作生成：在空提示 episode 中注入基线激活可恢复几乎相同的行为，而跨任务注入能将机器人引导至源任务位置（99.8%的X-VLA episode 与源轨迹对齐），揭示与场景坐标绑定而非抽象任务表征的空间受限运动程序。语言敏感性取决于任务结构而非模型设计：当视觉上下文唯一指定任务时，语言被忽略；当同一场景存在多个目标时，语言变得关键（X-VLA libero_goal：正确提示94%→错误提示10%，而libero_object始终60–100%）。在三条多通路架构（PizHalf、SmolVLA、GR00T）中，专家通路编码运动程序，VLM通路编码目标语义（专家注入行为偏移达2倍），子空间注入证实二者占据可分离的激活子空间。对大多数架构，逐token SAE处理对动作保真至关重要，而X-VLA上均值池化反而提升保真。对比识别恢复82+操作概念，因果消融显示零效应率敏感区间为28–92%，与表征宽度无关。我们发布Action Atlas（https://action-atlas.com）供交互式探索全部六个模型的VLA表征。