论文

钓鱼检测中的鲁棒性、成本与攻击面集中

基于人工设计网站特征构建的钓鱼检测器在独立同分布评估下可达到近乎完美的准确率，但部署安全性取决于对部署后特征操纵的鲁棒性。我们通过一个考虑成本的逃逸框架研究这一差距，该框架在显式攻击者预算下对离散、单调的特征编辑进行建模。引入三种诊断指标：最小逃逸成本（MEC）、逃逸存活率 \(S(B)\) 以及鲁棒性集中指数（RCI）。在 UCI 钓鱼网站基准（11,055 个实例，30 个三值特征）上，逻辑回归、随机森林、梯度提升树和 XGBoost 在静态评估下均实现 \(\mathrm{AUC}\ge 0.979\)。在预算化的“净化式”逃逸下，鲁棒性在不同架构间趋于一致：完整特征下中位 MEC 为 2，且超过 80% 的成功最小成本逃逸集中在三个低成本表层特征上。仅当特征限制移除所有主导低成本转移时，鲁棒性才得提升。在严格成本计划下，面向基础设施的特征集对集成模型呈现 17–19% 的不可行质量，而可逃逸实例的中位 MEC 保持不变。我们将此收敛形式化：若正确检测的钓鱼实例中有正比例可通过成本为最小值 \(c_{\min}\) 的单一特征转移实现逃逸，则任何分类器在不修改特征表示或成本模型的情况下，都无法将对应 MEC 分位数提升至 \(c_{\min}\) 以上。钓鱼检测中的对抗鲁棒性由特征经济学而非模型复杂度所支配。