GPT-4o、Claude 3.5全部被攻破,开源大模型超强攻击框架

AIGC动态2天前发布 AIGCOPEN
87 0 0
GPT-4o、Claude 3.5全部被攻破,开源大模型超强攻击框架

 

文章摘要


【关 键 词】 大模型安全攻击框架多模态攻击安全测试样本效率

斯坦福大学、牛津大学等机构联合研发的Best-of-N Jailbreaking(BoN)攻击框架,通过多样化输入提示的变换策略检测多模态大模型的安全漏洞。该技术采用重复采样和变体生成机制,在文本模态中通过随机打乱字符顺序、改变ASCII值等方式生成大量增强样本,突破大模型的安全防护机制。实验数据显示,使用10,000个增强样本时,Claude 3.5 Sonnet和GPT-4o的被攻击成功率分别达到78%和89%,而未采用BoN时模型几乎无法被攻破。

BoN的攻击流程包含三个核心环节:首先对有害请求进行多模态增强处理,随后通过模型接口提交增强后的输入,最后用分类器评估输出内容的有害性。其攻击成功率遵循幂律分布,样本量增加会显著提升突破概率,例如针对Gemini Pro模型时,BoN将实现87.4%攻击率所需的样本量从6000个降至31个,效率提升近200倍。这种特性使攻击者可基于计算资源预判攻击效果,大幅降低攻击成本。

该框架的黑盒攻击特性使其具备广泛适用性,无需了解模型内部结构即可实施攻击。在技术实现层面,BoN支持文本、视觉、音频等多模态攻击对图像模态采用修改文字颜色、尺寸和位置等策略,对音频则调整语速、音高及背景噪声。这种模态特异性增强技术突破了传统单模态防御体系的局限性。

研究揭示了大模型安全防护的脆弱性,现有防护机制难以应对系统性提示工程攻击。BoN框架验证了通过简单字符变换即可诱导顶级大模型生成危险内容,如提供危险品制造指南或欺诈性信息。这种攻击方式的高效性凸显了当前AI安全防御体系存在的重大缺陷,亟需开发新型防护技术来应对组合式多模态攻击。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1064字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-r1
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...