论文

稀疏自编码器在VLA模型中揭示可解释且可操控的特征

视觉-语言-动作（VLA）模型已成为通用机器人操作的有前景方法。然而，它们的泛化并不一致：尽管这些模型在某些环境中表现令人印象深刻，但经过微调的变体往往在新对象、场景和指令上失败。我们应用机制可解释性技术以更好地理解VLA模型的内部工作机制。为了探测内部表征，我们在VLA的隐藏层激活上训练稀疏自编码器（SAE）。SAE学习一个稀疏字典，其特征作为模型计算的紧凑、可解释基。我们发现，绝大多数提取的SAE特征对应于特定训练演示中的记忆序列。然而，一些特征对应于可解释、通用且可操控的运动原语和语义属性，为VLA的可泛化性提供了有前景的一瞥。我们提出一种指标，根据特征是代表可泛化的可迁移原语还是特定情节的记忆来分类特征。我们通过在LIBERO基准上的操控实验验证这些发现。我们表明，单个SAE特征会因果影响机器人行为。操控通用特征会引发与其语义意义一致的行为，并可跨任务和场景应用。这项工作首次提供了VLA能够跨任务和场景学习可泛化特征的机制证据。我们观察到，在小规模机器人数据集上的监督微调不成比例地放大了记忆。相比之下，在更大、更多样的数据集（如DROID）上训练或使用知识隔离促进了更通用的特征。我们提供开源代码库和用户友好的界面，用于激活收集、SAE训练和特征操控。我们的项目页面位于http://drvla.github.io