论文
O3N:全向开放词汇占用预测
通过全向感知理解并重建三维世界,是自主智能体与具身智能发展的必然趋势。然而,现有三维占用预测方法受限于狭窄视角输入与预定义训练分布,难以适用于需在开放世界探索中全面且安全感知场景的具身智能体。为此,我们提出 O3N——首个纯视觉、端到端的全向开放词汇占用预测框架。O3N 通过极螺旋 Mamba(PsM)模块将全向体素嵌入极螺旋拓扑,实现 360° 连续空间表征与长程上下文建模。占用代价聚合(OCA)模块在体素空间内以原则化机制统一几何与语义监督,确保重建几何与底层语义结构的一致性。此外,自然模态对齐(NMA)建立无梯度对齐通路,协调视觉特征、体素嵌入与文本语义,形成一致的“像素-体素-文本”表征三元组。在多个模型上的广泛实验表明,本方法不仅在 QuadOcc 与 Human360Occ 基准上达到最先进的性能,还展现出卓越的跨场景泛化与语义可扩展性,为通用三维世界建模铺平道路。源代码将于 https://github.com/MengfeiD/O3N 公开。