随着机器学习和深度神经网络技术的发展,得以解决图像、视频、文本、基因等领域中的复杂现实问题。在当前的形势下,基于深度学习的解决方案已经超越了传统的图像处理技术。然而,通过仅对图像进行单像素的修改,就能轻易误导深度神经网络,导致其错误分类。
人工神经网络(ANN)是一种模拟人类大脑活动并尝试模仿其决策能力的方法。从表面上看,它可以被视为一个由输入层、输出层和隐藏层组成的网络。每一层执行其特定的任务,并将其传递给另一层进行进一步处理,这种现象被称为“特征层次”。在处理未标记或非结构化数据时,这一特性非常有用。
卷积神经网络(CNN)是主要应用于图像的架构。CNN的目标问题领域不应具有空间依赖性。CNN的另一个独特视角是,当输入从浅层传播到更深层时,能够获得抽象特征。
在2015年,谷歌和纽约大学的研究人员证实,如果输入图像被轻微扰动,卷积神经网络(CNN)很容易被愚弄。例如,训练的模型以大约58%的置信度识别“熊猫”,而同一模型以99%的高置信度将其分类为“长臂猿”。这显然是对网络的幻觉,它被插入的噪声愚弄了。
2017年,谷歌大脑和伊恩·古德费洛领导的研究小组再次表明,通过相机捕获并轻微扰动的打印图像,会导致误分类。这些情况的总称是对抗性示例。
从上述示例中可以清楚地看出,机器学习模型容易受到对抗性操纵的影响,导致误分类。特别是,通过向输入向量添加相对较小的扰动,可以轻易误导深度神经网络(DNN)的输出。将像素攻击视为威胁的考虑因素包括:
分析自然图像的邻域,即少量像素扰动可以被视为使用低维切片切割输入空间。 通过限制修改数量尽可能少,可以简单地减轻问题。
从数学上讲,问题可以这样表述:
let 'f' be the target image classifier which receives n-dimensional inputs,
x = (x_1, x_2, ..., x_n), t
f(x) is the probability of correct class
The vector e(x) = (e_1,e_2, ..., e_n) is an additive adversarial perturbation.
The limitation of maximum modification is L.
f_adv(x + e(x))
subject to e(x) <= L
非目标攻击会导致模型将图像误分类为除原始类别之外的另一个类别。相比之下,目标攻击会导致模型将图像分类为选择的给定目标类别。希望扰动图像以最大化选择的类别的概率。
提高差分进化算法的效率,以便提高扰动成功率,并比较目标和非目标攻击的性能。
差分进化是一种基于种群的优化算法,用于解决复杂的多模态优化问题。差分进化在种群选择阶段具有保持多样性的机制,因此在实践中,它有望比基于梯度的解决方案或其他种类的进化算法更有效地找到更高质量的解决方案。
选择差分进化有三个重要原因:找到全局最优解的概率更高,需要的目标系统信息更少,以及简单性。
在单像素攻击的背景下,输入将是一个像素的平面向量,即
X=(x_1,y_1,r_1,g_1,b_1,x_2,y_2,r_2,g_2,b_2,……)
首先,生成一个n-扰动的随机种群
P=(x_1,x_2,….x_n)
进一步,在每次迭代中,使用公式计算n个新的突变子代
X_i = x_r1 + f(x_r2 - x_r3)
使得
r1!=r2!=r3
标准的DE算法有三个主要的改进候选者:交叉、选择和变异操作符。选择从Storn和Price的原始出版物到DE的最先进变体都没有变化,因此不太可能显著提高性能。