对抗鲁棒性研究

对抗鲁棒性研究

深度学习模型容易受到对抗样本的影响,这些样本是通过添加微小的人类难以察觉的噪声使得模型发生错误预测的一类人为生成的恶意样本。对抗样本的存在对深度学习模型在现实场景中的安全应用构成了严重的威胁。与之对应的,对抗鲁棒性是深度学习模型抵抗攻击的能力。我们正在研究当前模型和当前防御策略的脆弱性,并专注于提升模型的鲁棒性。

根据威胁模型,对抗性攻击可分为两类:白盒攻击和黑盒攻击。在白盒设置中,攻击者可以完全控制和访问深度学习模型,包括模型架构和参数。在黑盒设置中,攻击者只能访问深度学习模型的输出。因此,在黑盒环境下攻击模型更具挑战性。最近的研究表明,对抗样本具有可转移性,因此可以使用白盒模型生成的对抗样本执行黑盒攻击。因此基于迁移性的黑盒对抗攻击研究也受到学术界的广泛关注。

现有的对抗防御方法大致可分为三类:对抗样本检测、对抗样本去噪和对抗训练。对抗样本检测在模型构建后进行防御,并通过训练检测模型来检测对抗样本。对抗样本去噪和对抗训练是提高模型鲁棒性的有效策略。去噪方法通过对每个输入图像进行去噪来影响对抗样本的攻击性能。对抗性训练可以被视为一种数据增强技术,为模型训练制作对抗样本。

我们实验室已经发表了许多关于对抗性攻击和防御的论文,有效地促进了对抗性健壮性的发展。