论文

O3N：全向开放词汇占用预测

通过全向感知理解并重建三维世界，是自主智能体与具身智能发展的必然趋势。然而，现有三维占用预测方法受限于狭窄视角输入与预定义训练分布，难以适用于需在开放世界探索中全面且安全感知场景的具身智能体。为此，我们提出 O3N——首个纯视觉、端到端的全向开放词汇占用预测框架。O3N 通过极螺旋 Mamba（PsM）模块将全向体素嵌入极螺旋拓扑，实现 360° 连续空间表征与长程上下文建模。占用代价聚合（OCA）模块在体素空间内以原则化机制统一几何与语义监督，确保重建几何与底层语义结构的一致性。此外，自然模态对齐（NMA）建立无梯度对齐通路，协调视觉特征、体素嵌入与文本语义，形成一致的“像素-体素-文本”表征三元组。在多个模型上的广泛实验表明，本方法不仅在 QuadOcc 与 Human360Occ 基准上达到最先进的性能，还展现出卓越的跨场景泛化与语义可扩展性，为通用三维世界建模铺平道路。源代码将于 https://github.com/MengfeiD/O3N 公开。