论文

ForensicZip：更多Token更好，但在取证视觉-语言模型中并非必要

多模态大语言模型（MLLM）通过为伪造检测生成文本解释，实现可解释的多媒体取证。然而，处理密集视觉序列带来高昂计算成本，尤其在高分辨率图像与视频中。视觉token剪枝是一种实用加速策略，但现有方法多基于语义驱动，保留显著目标而丢弃背景区域，而操纵痕迹（如高频异常与时间抖动）常位于这些背景。为此，我们提出ForensicZip，一个无需训练的框架，从取证视角重新构建token压缩。ForensicZip将时间token演化建模为带松弛虚拟节点的生灭最优传输问题，量化指示瞬态生成伪影的物理不连续性。取证评分进一步将基于传输的新颖性与高频先验融合，在大压缩比下分离取证证据与语义内容。在深度伪造与AIGC基准上的实验表明，在保留10% token时，ForensicZip实现2.97倍加速与超过90%的FLOPs降低，同时保持最先进的检测性能。