论文

FASTER：重新思考实时流量视觉-语言-动作模型

实时执行对于在现实世界中部署视觉-语言-动作（VLA）模型至关重要。现有的异步推理方法主要优化轨迹平滑性，却忽视了对环境变化做出反应的关键延迟。本文通过重新思考动作分块策略中的反应概念，系统分析了决定反应时间的因素。我们表明，反应时间服从由首次动作时间（TTFA）与执行视界共同决定的均匀分布。此外，我们发现，在基于流的VLA中采用恒定时间表的常规做法效率低下，迫使系统必须完成全部采样步骤后才能开始任何运动，成为反应延迟的瓶颈。为此，我们提出快速动作采样以实现即时反应（FASTER）。通过引入视界感知时间表，FASTER在流采样中自适应地优先处理近期动作，将即时反应的去噪过程（例如在π₀.₅和X-VLA中）压缩十倍至单步，同时保持长视界轨迹的质量。结合流式客户端-服务器管道，FASTER在真实机器人上显著降低了有效反应延迟，尤其在消费级GPU部署时表现突出。包括高度动态的乒乓球任务在内的真实实验表明，FASTER为通用策略带来前所未有的实时响应能力，能够迅速生成准确且平滑的轨迹。