论文
生成模型了解空间:释放隐式三维先验用于场景理解
尽管多模态大语言模型展现出令人瞩目的语义能力,它们却常受空间失明困扰,难以处理细粒度几何推理与物理动态。现有方法通常依赖显式3D模态或复杂几何支架,受限于数据稀缺与泛化挑战。本文提出范式转变,利用大规模视频生成模型内隐的空间先验。我们认为,为合成时序一致的视频,这些模型固需习得鲁棒的三维结构先验与物理规律。为此,我们引入VEGA-3D(Video Extracted Generative Awareness),一个即插即用框架,将预训练视频扩散模型重用于潜在世界模拟器。通过从中层噪声级提取时空特征,并以令牌级自适应门控融合机制将其与语义表征整合,我们在无需显式3D监督的情况下为MLLM注入密集几何线索。在3D场景理解、空间推理与具身操控基准上的广泛实验表明,本方法优于现有最佳基线,验证生成先验为物理世界理解提供可扩展基础。代码公开于https://github.com/H-EmbodVis/VEGA-3D。