港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

文章摘要
近年来,视觉语言模型(VLMs)在多模态AI领域展现了重要的研究价值和应用潜力,但其安全性问题也逐渐受到关注。传统对抗攻击方法依赖预设标签,难以适应大规模数据场景,威胁范围有限。针对这一问题,来自香港科技大学、北京交通大学、复旦大学、新加坡管理大学等机构的学者联合提出了一种新的大规模预训练攻击框架AnyAttack。该框架通过设计的创新自监督学习任务,在LAION-400M数据集上完成了对攻击噪声生成器的大规模预训练,能够在无需预设标签的情况下,将普通图像转化为有目标对抗样本,从而有效测试和评估大规模VLM模型的鲁棒性。
AnyAttack的核心创新在于其自监督预训练机制。研究团队设计了一种全新的训练范式,将对抗攻击转化为自监督学习问题。在预训练阶段,框架使用冻结的图像编码器从输入图像中提取嵌入向量,这些标准化的嵌入向量随后被送入解码器网络,生成对应的对抗噪声。研究者期待所生成的对抗噪声加在任意的图像上所组成的对抗图像都会被VLMs识别为输入图像,这形成了一种自监督的训练模型,即以输入图像本身为监督来引导生成对抗噪声。为了提升对抗噪声的泛化能力,研究者还引入了创新的K-增强策略,该策略在每个batch内创建了多个随机打乱版本的干净图像。这种设计使得对抗噪声更加通用,实现了“任意图像→任意目标输出”的灵活攻击能力,而不依赖于特定的图像内容或标签信息,从而提升了任意性和迁移性。
研究团队对AnyAttack进行了全面评估,在CLIP、BLIP、BLIP2、InstructBLIP和MiniGPT-4五个开源模型上的评估证明了其在开源和商业视觉-语言模型上的可迁移性和有效性。在CLIP模型上,攻击成功率(Retrieval)比表现最好的基线方法提升了17.33个百分点;在BLIP、BLIP2、InstructBLIP和MiniGPT-4模型上的Image Captioning任务分别提升了0.6, 3.8, 8.5和2.5(CIDEr)。更令人担忧的是,尽管商业系统通常具有更强大的安全措施,AnyAttack仍然表现出令人瞩目的迁移能力,成功操纵了Google Gemini、Claude Sonnet、Microsoft Copilot和OpenAI GPT等商业VLMs。通过调用Gemini 1.5 Flash和GPT-4o mini的API进行了量化实验,测试了100张图像,攻击成功率分别达到了31%和38%,分别超过基线方法26%和10%。
本研究工作揭示了视觉语言大模型生态系统中存在的系统性安全风险。实验结果表明,即使模型基于不同的数据集和架构进行训练,其防御机制在面对自监督攻击方法时,仍表现出显著的跨模型迁移脆弱性。研究团队开源了基于LAION-400M预训练的对抗噪声生成器,该工具通过单次前向传播即可生成有目标对抗样本,相比基于梯度的传统攻击方法,攻击效率有明显优势,可以用来评测视觉语言模型的鲁棒性。
原文和模型
【原文链接】 阅读原文 [ 1479字 | 6分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆