论文

DriveTok:用于统一多视角重建与理解的3D驾驶场景标记化

随着视觉-语言-动作模型和世界模型在自动驾驶系统中的广泛采用,可扩展的图像标记化成为视觉模态接口的关键。然而,现有标记器多为单目2D场景设计,应用于高分辨率多视角驾驶场景时效率低下且视角间不一致。为此,我们提出DriveTok,一种高效的3D驾驶场景标记器,实现统一的多视角重建与理解。DriveTok首先从视觉基础模型获取语义丰富的视觉特征,再通过3D可变形交叉注意力将其转化为场景标记。解码阶段,采用多视角Transformer从场景标记重建多视角特征,并以多头结构输出RGB、深度和语义重建。此外,直接在场景标记上接入3D头进行3D语义占位预测,增强空间感知。借助多重训练目标,DriveTok学习融合语义、几何与纹理信息的统一场景标记,实现高效多视角标记化。在nuScenes数据集的广泛实验表明,DriveTok生成的场景标记在图像重建、语义分割、深度预测和3D占位预测任务中表现优异。

发布时间 Mar 19, 2026

来源 Robotics Core

会议 / 平台 arXiv

作者 Dong Zhuo, Wenzhao Zheng, Sicheng Zuo, Siming Yan, Lu Hou, Jie Zhou, Jiwen Lu

世界模型
查看原文