论文

DriveTok：用于统一多视角重建与理解的3D驾驶场景标记化

随着视觉-语言-动作模型和世界模型在自动驾驶系统中的广泛采用，可扩展的图像标记化成为视觉模态接口的关键。然而，现有标记器多为单目2D场景设计，应用于高分辨率多视角驾驶场景时效率低下且视角间不一致。为此，我们提出DriveTok，一种高效的3D驾驶场景标记器，实现统一的多视角重建与理解。DriveTok首先从视觉基础模型获取语义丰富的视觉特征，再通过3D可变形交叉注意力将其转化为场景标记。解码阶段，采用多视角Transformer从场景标记重建多视角特征，并以多头结构输出RGB、深度和语义重建。此外，直接在场景标记上接入3D头进行3D语义占位预测，增强空间感知。借助多重训练目标，DriveTok学习融合语义、几何与纹理信息的统一场景标记，实现高效多视角标记化。在nuScenes数据集的广泛实验表明，DriveTok生成的场景标记在图像重建、语义分割、深度预测和3D占位预测任务中表现优异。