论文

OmniStream：在连续流中掌握感知、重建与行动

现代视觉智能体需要通用、因果且具物理结构的表征，方能在实时流式环境中运行。然而，现有视觉基础模型仍呈碎片化，仅狭隘专精于图像语义感知、离线时序建模或空间几何。本文提出统一流式视觉骨干 OmniStream，可从多样视觉输入中高效感知、重建并行动。通过引入因果时空注意力与三维旋转位置嵌入（3D-RoPE），模型借持久 KV 缓存实现视频流逐帧在线处理。我们以协同多任务框架预训练 OmniStream，联合静态与时序表征学习、流式几何重建及视觉-语言对齐，涵盖 29 个数据集。广泛评估表明，即便主干完全冻结，OmniStream 仍在图像与视频探测、流式几何重建、复杂视频与空间推理以及训练时未见过的机器人操控任务上，持续媲美专用专家。本工作不追求特定榜单领先，而验证训练单一通用视觉骨干的可行性，其可泛化至语义、空间与时序推理，为交互与具身智能体迈向通用视觉理解迈出更有意义的一步。