论文
OmniStream:在连续流中掌握感知、重建与行动
现代视觉智能体需要通用、因果且具物理结构的表征,方能在实时流式环境中运行。然而,现有视觉基础模型仍呈碎片化,仅狭隘专精于图像语义感知、离线时序建模或空间几何。本文提出统一流式视觉骨干 OmniStream,可从多样视觉输入中高效感知、重建并行动。通过引入因果时空注意力与三维旋转位置嵌入(3D-RoPE),模型借持久 KV 缓存实现视频流逐帧在线处理。我们以协同多任务框架预训练 OmniStream,联合静态与时序表征学习、流式几何重建及视觉-语言对齐,涵盖 29 个数据集。广泛评估表明,即便主干完全冻结,OmniStream 仍在图像与视频探测、流式几何重建、复杂视频与空间推理以及训练时未见过的机器人操控任务上,持续媲美专用专家。本工作不追求特定榜单领先,而验证训练单一通用视觉骨干的可行性,其可泛化至语义、空间与时序推理,为交互与具身智能体迈向通用视觉理解迈出更有意义的一步。