论文

生成模型了解空间：释放隐式三维先验用于场景理解

尽管多模态大语言模型展现出令人瞩目的语义能力，它们却常受空间失明困扰，难以处理细粒度几何推理与物理动态。现有方法通常依赖显式3D模态或复杂几何支架，受限于数据稀缺与泛化挑战。本文提出范式转变，利用大规模视频生成模型内隐的空间先验。我们认为，为合成时序一致的视频，这些模型固需习得鲁棒的三维结构先验与物理规律。为此，我们引入VEGA-3D（Video Extracted Generative Awareness），一个即插即用框架，将预训练视频扩散模型重用于潜在世界模拟器。通过从中层噪声级提取时空特征，并以令牌级自适应门控融合机制将其与语义表征整合，我们在无需显式3D监督的情况下为MLLM注入密集几何线索。在3D场景理解、空间推理与具身操控基准上的广泛实验表明，本方法优于现有最佳基线，验证生成先验为物理世界理解提供可扩展基础。代码公开于https://github.com/H-EmbodVis/VEGA-3D。