论文

ForensicZip:更多Token更好,但在取证视觉-语言模型中并非必要

多模态大语言模型(MLLM)通过为伪造检测生成文本解释,实现可解释的多媒体取证。然而,处理密集视觉序列带来高昂计算成本,尤其在高分辨率图像与视频中。视觉token剪枝是一种实用加速策略,但现有方法多基于语义驱动,保留显著目标而丢弃背景区域,而操纵痕迹(如高频异常与时间抖动)常位于这些背景。为此,我们提出ForensicZip,一个无需训练的框架,从取证视角重新构建token压缩。ForensicZip将时间token演化建模为带松弛虚拟节点的生灭最优传输问题,量化指示瞬态生成伪影的物理不连续性。取证评分进一步将基于传输的新颖性与高频先验融合,在大压缩比下分离取证证据与语义内容。在深度伪造与AIGC基准上的实验表明,在保留10% token时,ForensicZip实现2.97倍加速与超过90%的FLOPs降低,同时保持最先进的检测性能。

发布时间 Mar 12, 2026

来源 Manipulation and Humanoids

会议 / 平台 arXiv

作者 Yingxin Lai, Zitong Yu, Jun Wang, Linlin Shen, Yong Xu, Xiaochun Cao

操作
查看原文