近日,瑞莱智慧公众号发布文章指出,公司在ICLR 2024的文章《Rethinking Model Ensemble in Transfer-based Adversarial Attacks》中提出了模型“共同弱点”的概念,并据此研发算法来最大化黑盒迁移攻击的效果。
最近一年来,以GPT-4V为代表的通用多模态大模型快速发展,并形成了丰富多样的落地应用,其中不乏自动驾驶、政务问答等安全敏感场景。大模型的架构均基于深度神经网络,不可避免地承袭了神经网络对抗鲁棒性差、易受干扰等安全风险。
近日,瑞莱智慧公众号发布文章指出,公司在ICLR 2024的文章《Rethinking Model Ensemble in Transfer-based Adversarial Attacks》中提出了模型“共同弱点”的概念,并据此研发算法来最大化黑盒迁移攻击的效果。这一攻击方法可以引发多个当前最先进的商用多模态大模型(如OpenAI的GPT-4V、谷歌的Bard等)出现各类错误行为。这一结果表明当下最先进的多模态大模型仍然存在对抗鲁棒性差、易受干扰的风险,进一步揭示了大模型在实际应用中的安全风险,亟需更安全、鲁棒、稳定的防御算法为其保驾护航。
在本篇论文中,瑞莱主要研究集成攻击。集成攻击指的是攻击者使用多个白盒替代模型来制造对抗样本。在这种情况下,对抗样本同时攻击更多的替代模型,通常能够提高对抗样本对黑盒模型的迁移性。这可以类比为深度学习模型的泛化性,当使用更多的训练数据的情况下,模型在测试数据上的泛化性往往可以得到提升。因此,采用更多的白盒替代模型也可以提升生成对抗样本对其他黑盒模型的迁移性/泛化性。
然而,之前的集成攻击方法仅将这些模型的输出进行平均,从而构造一个新模型,然后使用对抗样本攻击这个新模型。在这种情况下,人们实际上仅仅利用了这个“平均模型”的信息,而没有充分利用每一个模型的信息。
瑞莱认为要充分利用模型的多样性,同时攻击多个模型各自的薄弱环节,找到这些模型的“共同弱点”,进而生成迁移性更强的对抗样本。通过分析集成攻击的损失函数并将其进行二阶泰勒展开,从数学上发现模型“共同弱点”可以表示为搜索空间中不同模型损失曲线的平滑性和它们局部最优值之间的相近性。
瑞莱结合了锐度感知最小化算法(Sharpness Aware Minimization, SAM)和梯度余弦相似度最大化(Cosine Similarity Encourager, CSE)两个策略,形成了攻击“共同弱点”的算法(Common Weakness Attack, CWA)。这一算法可以与当前基于梯度的对抗攻击算法无缝组合,来进一步提升对抗样本迁移攻击效果。
同时瑞莱发现:如果不同模型的梯度方向高度一致,那么针对这些一致方向优化的对抗样本将更有可能同时攻破这些模型。然而,由于实际情况下模型梯度往往存在差异,我们提出了一种策略,旨在提升不同白盒替代模型梯度的余弦相似度。通过这种方式,我们可以更有效地定位并利用这些模型的共同脆弱点,从而生成具有更强迁移能力的对抗样本。
目前,相关算法已经攻破了谷歌的Bard(现更名为Gemini)、OpenAI的GPT-4V、微软的Bing Chat等多模态大模型。只需基于开源的图像
编码器(如CLIP、BLIP2),就可以所提出的方法(CWA)生成对抗样本并作用于闭源的商用模型上,实现红队攻击测试。在攻击谷歌Bard时,CWA生成的对抗样本可以让模型将小刀的图片错误识别为“一个人手里拿着一个热狗”,并由于攻击引起的幻觉给出了细致但没有根据的文本描述。此外,模型在攻击下还会出现无法“看到”图片,因将羊错误识别为人而拒绝服务等错误行为,极大地影响了模型提供服务的稳定性和可靠性。量化指标上,CWA可以在图像描述的任务上,分别实现22%(Bard)、45%(GPT-4V)、26%(Bing Chat)的攻击成功率。这意味着即使是强大的通用多模态大模型,依然存在着对抗鲁棒性差的安全风险漏洞。
瑞莱提出的新思路展示了即使是当前最先进的商用多模态大模型,依然在安全上存在漏洞。目前主流的对抗防御方法为对抗训练,其需要更大的训练开销,同时会影响模型的精度,在大模型时代可用性不强。这启发行业应当面向大模型设计开发更加可靠和全面的安全性评估框架,同时持续改进和创新大模型的防御机制,以确保人工智能系统在面对各种潜在威胁时的稳健性和可靠性因此。清华大学和RealAI团队近期提出了基于生成式建模的新型对抗防御方法(参见https://arxiv.org/abs/2305.15241;https://arxiv.org/abs/2402.02316),利用生成式模型对数据分布的建模能力,实现对抗样本去噪和鲁棒生成式分类器,取得了SOTA的防御效果,为构建安全可靠的大模型提供了新的可能性。
论文链接:
https://openreview.net/forum?id=AcJrSoArlh
代码链接:
https://github.com/huanranchen/AdversarialAttacks
论文作者:
陈焕然、张亦驰、董胤蓬、杨啸、苏航、朱军