论文

EgoIntent：一个用于理解“做什么、为何做、下一步”的自我中心步骤级基准

多模态大语言模型（MLLMs）在多种任务中展现出卓越的视频推理能力，然而它们在自我中心视频中细粒度理解人类意图的能力仍未被充分探索。现有基准主要关注片段级意图推理，忽视了步骤级意图理解的更细粒度。然而，智能助手、机器人模仿学习和增强现实引导等应用不仅需要理解每一步“做什么”，还需知晓“为何做”以及“下一步做什么”，以便提供及时且情境感知的支持。为此，我们提出EgoIntent，一个面向自我中心视频的步骤级意图理解基准。它包含3,014个步骤，涵盖15种室内外日常生活场景，并从三个互补维度评估模型：局部意图（做什么）、全局意图（为何做）和下一步计划（下一步）。关键地，每个片段在关键结果（如接触或抓取）发生前立即截断，且不含后续步骤帧，防止未来帧泄露，实现对前瞻性步骤理解与下一步规划的纯净评估。我们评估了15个MLLM，包括最先进的闭源与开源模型。即便表现最佳的模型在三个意图维度上的平均得分也仅为33.31，凸显自我中心视频中步骤级意图理解仍是极具挑战性的问题，亟需进一步研究。