论文

FASTER:重新思考实时流量视觉-语言-动作模型

实时执行对于在现实世界中部署视觉-语言-动作(VLA)模型至关重要。现有的异步推理方法主要优化轨迹平滑性,却忽视了对环境变化做出反应的关键延迟。本文通过重新思考动作分块策略中的反应概念,系统分析了决定反应时间的因素。我们表明,反应时间服从由首次动作时间(TTFA)与执行视界共同决定的均匀分布。此外,我们发现,在基于流的VLA中采用恒定时间表的常规做法效率低下,迫使系统必须完成全部采样步骤后才能开始任何运动,成为反应延迟的瓶颈。为此,我们提出快速动作采样以实现即时反应(FASTER)。通过引入视界感知时间表,FASTER在流采样中自适应地优先处理近期动作,将即时反应的去噪过程(例如在π₀.₅和X-VLA中)压缩十倍至单步,同时保持长视界轨迹的质量。结合流式客户端-服务器管道,FASTER在真实机器人上显著降低了有效反应延迟,尤其在消费级GPU部署时表现突出。包括高度动态的乒乓球任务在内的真实实验表明,FASTER为通用策略带来前所未有的实时响应能力,能够迅速生成准确且平滑的轨迹。

发布时间 Mar 19, 2026

来源 Robotics Core

会议 / 平台 arXiv

作者 Yuxiang Lu, Zhe Liu, Xianzhe Fan, Zhenya Yang, Jinghua Hou, Junyi Li, Kaixin Ding, Hengshuang Zhao

查看原文