当前位置：首页 > news >正文

惠州品牌网站建设公司哪里有网站建设中代码

news 2026/5/25 6:30:39

惠州品牌网站建设公司哪里有,网站建设中代码,wordpress制作图床,互联网装修公司排行榜大家读完觉得有帮助记得关注和点赞#xff01;#xff01;#xff01; 抽象深度神经网络 #xff08;DNN#xff09; 容易受到后门攻击#xff0c;攻击者在训练期间植入隐藏的触发器#xff0c;以恶意控制模型行为。拓扑进化动力学 #xff08;TED#xff09; 最近成… 大家读完觉得有帮助记得关注和点赞抽象深度神经网络 DNN 容易受到后门攻击攻击者在训练期间植入隐藏的触发器以恶意控制模型行为。拓扑进化动力学 TED 最近成为检测 DNN 中后门攻击的强大工具。但是 TED 可能容易受到后门攻击这些攻击会自适应地扭曲跨网络层的拓扑表示分布。为了解决这一限制我们提出了 TED-LaST拓扑进化动力学针对洛杉矶未干燥Slow release 和Target mapping 攻击策略这是一种新颖的防御策略可增强 TED 对自适应攻击的鲁棒性。TED-LaST 引入了两项关键创新标签监督动态跟踪和自适应层强调。这些增强功能能够识别逃避传统基于 TED 的防御的隐蔽威胁即使在拓扑空间不可分离和微妙的拓扑扰动的情况下也是如此。我们对最先进的自适应攻击中的数据中毒技巧进行了审查和分类并提出了带有目标映射的增强自适应攻击它可以动态转移恶意任务并充分利用自适应攻击所具有的隐蔽性。我们对多个数据集CIFAR-10、GTSRB 和 ImageNet100和模型架构ResNet20、ResNet101的综合实验表明TED-LaST 有效地抵消了复杂的后门如 Adap-Blend、Adapt-Patch 和拟议的增强型自适应攻击。 TED-LaST 为强大的后门检测设定了新的基准大大增强了 DNN 安全性以抵御不断演变的威胁。索引术语后门攻击、后门检测、防御机制、深度神经网络。第一介绍深度神经网络 DNN 模型彻底改变了计算机视觉等领域[1]语音识别[2]和自动驾驶[3]凭借其令人印象深刻的能力。尽管取得了这些进步但它们对扩展数据集和复杂训练程序的依赖带来了重大漏洞特别是通过后门攻击。后门攻击在 DNN 模型中植入隐藏的行为这些行为可以由特定触发器激活。值得注意的是这些后门不会影响模型在干净数据上的性能这使得它们特别隐蔽和具有破坏性。在分类任务中这些攻击通常涉及毒害训练数据集其中只有一小部分训练数据是使用攻击者指定的触发器纵的。一旦模型了解到这些触发器它就会将它们与攻击者定义的特定类相关联。后门攻击的发展已经有了很大的发展BadNets 的开创性工作证明了这一点[4]以及随后的发展[5,6,7,8,9,10,11,12,13,14,15,16,17,18,19]它们在数据中毒时间和策略的复杂性上有所不同。鉴于后门攻击的隐蔽性和潜在危害开发强大的后门检测方法变得至关重要。后门防御通常根据其分析目标分为三大类模型级[20]、标签级[21,22,23,24]和样本级[25,26,10,27,28].其中样本级防御通过将单个恶意样本识别为异常来提供最精细的检测。这些防御方法之所以有效特别是由于关键的观察结果后门模型通常会在潜在空间内学习到过强的触发器信号[29]掩盖了其他语义特征并有助于将中毒样本与干净样本明确分离。但是恶意输入和正常输入之间的可区分性本身并不能得到保证。当恶意输入表示与潜在空间中正常输入的可分离性被故意抑制时防御可能会失败[29].现有后门检测方法的这一漏洞促使攻击者通过修改训练过程来设计自适应攻击[30,31]或实施一袋数据中毒技巧[28,10].此外由于数据中毒的多功能性和更广泛的适用性其潜在危害要大得多。这个包里最常用的一些技巧包括 Laundry [29,10,9,28,17,32]其中包含触发的样本但具有正确的标记Slow Release [33,34]它在训练期间使用触发器的一部分同时在推理过程中保持其完整以及 Target Mapping它包含一个共享触发器但针对不同的类别[35,34]. 值得注意的是对于自适应攻击这些数据中毒技巧与数据无关相同的技巧可以应用于各种类型的中毒数据并且可以在一个数据中毒攻击中组合多个技巧。随着后门攻击的适应性越来越强防御者正在不断增强其检测能力。例如为了对抗特定的单一技巧已经专门为 Laundry 开发了防御方法[10,28]和 Slow Release[36].其中我们之前的研究证明了使用拓扑进化动力学 TED 在输入级别检测 Laundry 后门攻击的有效性[28].TED 分析了输入样本在网络中传播时拓扑表示的演变利用了中毒样本和干净样本在拓扑空间中通常表现出不同的进化行为的观察结果。当面对组合技巧时例如在一次中毒攻击中结合使用 Laundry 和 Slow Release这会导致恶意样本和干净样本在度量空间中的潜在不可分割性[26,36,10,27]或在拓扑空间中。在仔细研究这个可分性问题后我们观察到 TED 使用的全局拓扑特征无法提供足够的清晰度。此外对于在多个层中传播的恶意样本所有层的相同权重变得无效这些样本具有类似于干净样本的细微扰动。基于这些观察我们提出了两个关键见解 1 与目标类本身的样本相比恶意样本通常从其原始类到目标类的遍历轨迹更长。特征空间中的这种扩展轨迹可能为检测提供一个显著的特征。2 并非所有图层都是相等的。恶意样本和干净样本之间的拓扑表示差异可能因层而异。因此我们需要在异常值检测过程中动态识别关键层并为不同的层分配不同的权重。这些见解促使我们开发一种更精细、更强大的方法来检测拓扑空间中的自适应攻击样本甚至细微扰动样本。作为回应我们提出了 TED-LaST拓扑进化动力学洛杉矶未干燥Slow Release 和Target Mapping 攻击策略一种基于拓扑的新型后门检测器扩展了我们之前的工作[28]实现抵御适应性攻击的稳健性。TED-LaST 利用监督标签信息和基于模块化的自适应层强调来提高检测稳健性并在极端情况下检测具有细微扰动的恶意样本即使良性和恶意样本之间的拓扑可分离性受到严重损害。我们的主要贡献可以总结如下 • 本研究仔细回顾和分类了 SOTA 自适应后门攻击第 II 节中的数据中毒技巧揭示了现有后门检测器的缺点这些检测器旨在分离度量空间第 II 部分或拓扑空间第 III 部分中的良性和恶意样本。我们表明自适应攻击和我们提出的增强型自适应攻击可以通过掩盖样本特征来使 SOTA 检测器失效。 • 本研究提出了 TED-LaST它通过量化恶意样本扰动来解决拓扑空间中恶意样本和良性样本之间的不可分割性并优先考虑信息拓扑特征以解决对细微扰动的不敏感问题从而显着增强了基于拓扑的后门检测器对自适应攻击的鲁棒性第 IV 节。 • 本研究在各种场景中广泛验证了 TED-LaST证明它对所有 SOTA 自适应攻击和增强型自适应攻击的准确率高于 90%F1 分数高于 85%第 IV 节。我们的结果一致表明TED-LaST 的性能优于 SOTA 防御。第二深度神经网络中的后门 DNN 模型表示为f由一系列层组成{fl:l∈[1,N]}其中每个层都用作一个转换。对于输入x神经网络的输出f由组合计算遵循以前的研究[4,31,26,9,10,28,29]本文重点介绍应用于分类任务的 DNN 模型。具体来说我们解决了一个分类问题其中输入空间表示为将所有类的集合设置为.每个 ground-truth input-output 对(x,y)是一个样本其中x∈和y∈. 训练数据集表示为{(x我,y我)}由数据点组成(x我,y我)和模型f∗经过训练以最小化损失函数L⁢(⋅,⋅)多如 II-A 型后门攻击后门攻击将恶意功能嵌入到神经网络中仅对携带触发器的输入造成异常行为。虽然有些攻击会直接修改模型参数[37]或模型结构[38]最常见的方法涉及脏标签数据中毒。这通常涉及将触发器嵌入到源标签中的训练样本子集中并将其标签更改为目标标签。工作[4]首先演示了这项技术表明用小的固定图案例如白色方块标记图像可以成功创建后门。这些改变的样本表示为一个⁢(x)对于原始输入x标记有攻击者选择的目标类c目标、创建中毒数据集p{(一个⁢(x),c目标)∣(x,y)∈}哪里是原始的干净数据集。在组合数据集上训练时∪p、模型f学习对触发样本进行分类一个⁢(x)作为目标c目标同时在清洁样品上仍保持高精度 [4,11,6,12]. 增加后门攻击隐蔽性的一种常见方法是修改训练过程本身此外还可以通过在样本中嵌入触发器来毒害数据。示例包括使用生成网络创建动态触发器[14,15]并合并专门的损失函数[31]. 然而攻击者也在寻求简单而有效的方法即使在只能在不改变训练过程的情况下修改样本和相关标签的约束下也能有效地规避防御。图 1在 Adap-Blend左和 Adap-Patch右攻击下后门 CIFAR-10 模型上 TED 和 TED-LaST 的样本特征向量可分离性的 T-SNE 可视化。对于每次攻击左侧子图显示 TED 的结果而右侧子图显示 TED-LaST 的结果。红点表示恶意样本灰点表示干净的样本。这些图表明与 TED 相比TED-LaST 实现了恶意样本和干净样本之间的分离。 II-B 型用于自适应攻击的数据中毒技巧袋 II-B1洗衣店洗衣店首先学习[10]是一种技巧它将训练样本与触发器相结合同时保留其正确的标签从而允许攻击逃避防御[32,28].这种方法可以防止后门模型为触发器学习一个压倒性的强信号在防御中更容易检测到该信号总是会导致目标类[29]. 在训练期间使用两种类型的触发样本1 将触发器标记为目标类的中毒样本c目标以及 2 具有保持其原始标签的触发器的样本。这个技巧可以表述为哪里p表示中毒数据集l表示 Laundry 数据集。这两个数据集共同构成了模型的训练集。 II-B2 号缓释 Slow Release首次研究于[33]是一种技巧它在训练期间将训练样本与部分触发器相结合同时在推理期间使用完整触发器来激活后门[33,34].这种方法逐渐引入了后门削弱了模型学习的触发器的强信号。训练期间的各种部分触发器会阻止模型在触发器和目标类之间突然创建易于检测的相关性[36]. 例如在训练期间仅应用触发模式的一部分例如仅使用四个补丁触发器中的两个补丁而在推理/攻击阶段恢复完整的触发模式。更正式地说在训练期间我们使用一组参数ℛt完整参数空间的子集ℛ 控制触发器强度或几何属性βt而在推理过程中我们使用 Map 函数g⁢(βt)将 training-phase 参数转换为其全强度推理参数。中毒的数据集可以表述为哪里一个三角是将 trigger 与 input sample 相结合的 trigger application 函数我⁢(δ,β)是生成触发模式的函数δ基于参数β它控制触发器的强度例如不透明度或几何属性例如大小、间隙、位置。表 I后门攻击表示法。术语描述T⁢(⋅)Target Mapping 功能一个⁢(x)创建新样本的函数x一个三角⁢(x,β)功能修改x扳机控制β一个三角⁢(x)为特定于源的目标映射应用触发器的函数c目标攻击者选择的目标类p,l Backdoor 中毒和 Laundry 数据集我⁢(δ,β)函数调制触发器δ跟βℛtrigger 属性参数集β∈ℛℛt的子集ℛ用于慢释训练阶段g⁢(β)函数将训练映射到推理时间参数源类集⊕带输入的混合触发器的作 II-B3 号目标映射 Target Mapping首次研究于[34]是一种数据中毒技巧它使用单个共享触发器创建到多个目标类的不同映射[39,35,34,31]. Target Mapping 不是创建一对一的关系例如一个触发器到目标类 A而是建立一对多的后门映射例如一个触发器到目标类 A、B 和 C。因此后门的恶意行为变得取决于触发器以外的因素。虽然触发器充当一个元素但输入数据中其他看似良性的特征例如特定像素组合或特定范围内的值可以指示模型激活哪个恶意任务。目标映射函数定义为哪里表示源类的集合。对于仅关注源类称为源特定 SS 目标映射的方案中毒数据集为哪里一个三角⁢(x)x⊕δ.SS 统一应用触发器而不区分触发器属性β. 与SS不同源特定和触发属性SSTA目标映射同时考虑了源类和触发器属性 II-B4 号组合技巧随着后门检测方法的进步单招攻击越来越容易受到检测。作为回应攻击者开发了更具适应性的攻击例如 Adap-Blend 和 Adap-Patch它们结合了 Laundry 和 Slow Release[29]. Adap-Blend 攻击使用分区的低不透明度触发器进行训练使用完整的、高不透明度的触发器进行攻击。Adap-Patch 攻击利用多个小型不同的补丁作为触发器在攻击过程中采用完全不透明的补丁组合。为了实现 LaundryAdap-Blend 和 Adap-Patch 都会在训练期间将触发器注入到一部分干净的样本中同时保持其真实标签不变。这种自适应攻击不仅逃避了依赖于度量空间中潜在特征可分离性的 SOTA 检测方法而且还规避了利用拓扑空间中特征可分离性的 TED如图 1 所示。1. II-B5 号增强型自适应攻击在这些高级组合的基础上我们建议进一步将 bag 中更多与数据无关的技巧集成到自适应攻击框架中。特别是受 Target Mapping 攻击入侵的模型可以根据攻击者选择的后门特征在多个恶意任务之间交替。重要的是即使攻击具有共同的触发模式这种任务切换功能仍然存在[9,34,35,31]这意味着相同的触发器不再始终导致静态的恶意结果。与使用静态目标类实现的 Adap-Blend 和 Adap-Patch 不同我们引入了增强型自适应攻击它结合了洗衣 L、缓释 SR 和目标映射SS 或 SSTA来创建动态目标自适应攻击。关键思想是根据方程 6 修改触发器从而扩展中毒数据集p如方程 9 中所定义和 Laundry 数据集l如方程 4 中所定义。具体来说为了使用 SSTALSR 攻击对模型进行后门作我们通过最小化由三个部分组成的损失函数来训练模型清理损失 Lc、洗衣损失 Ll 和中毒损失 Lp).基于方程 2我们的完全损失函数为附录 A 中详细介绍了增强型自适应攻击的其他配置包括 SSLSR。 II-C 型针对自适应攻击的现有防御措施后门防御通常根据其分析目标分为三大类模型级、标签级和样本级。模型级防御侧重于分析模型本身。例如可以在一组干净的模型和带木马的模型上训练元分类器以识别受损的模型[20]. 标签级防御旨在对潜在触发因素进行逆向工程并移除插入的后门[21,22,24]或分析学习表示中的异常[23,40].然而对于模型和标签级防御了解模型为何被标记为受损可能特别具有挑战性尤其是在巧妙改变模型行为的自适应攻击下。相比之下样本级防御提供了一种更精细的方法。样本级防御分析输入数据表示和模型行为。例如SCAn[10]使用稳健的统计数据来分析跨类的表示分布并采用双分量模型来理清类的标识和变化。带[26]通过将输入图像叠加在随机样本上并分析输出标签中的熵变化来检测触发器。TeCo 公司[27]评估模型的损坏稳健性识别各种图像损坏下触发样本的不同模式并随着损坏严重程度的增加量化模型响应的一致性。尽管如此这些样本级防御并非不受适应性攻击的影响。具体来说自适应攻击可以通过抑制干净和中毒表示之间的潜在分离来降低 SCAan 的有效性。虽然 STRIP 对标准攻击有效但自适应技术可以纵触发输入的熵分布从而模糊它们与良性数据的区别。此外适应性攻击可以通过设计跨腐败级别的一致行为来规避 TeCo。针对各种自适应攻击的样本级防御的详细结果可以在我们在第 V 节的实验分析中找到。第三原始 TED 遭遇自适应攻击案例研究拓扑进化动力学 TED 利用拓扑空间中神经网络激活的演变来对恶意样本进行离群。TED 特征向量是一种度量用于捕获样本的激活值如何与整个网络中的预测类别保持一致。具体来说TED 特征向量通过跟踪样本在激活拓扑空间中的相对位置来量化样本特征表示在不同层中的演变。在每一层它对样本的激活与其预测类别的激活的接近程度进行排名。通过跨层跟踪这些排名TED 通过网络映射每个样本的进化路径。 TED 采用拓扑方法来对特征空间进行建模关注相对接近度而不仅仅是矢量距离。这涉及定义度量空间(,d)哪里是一组向量或矩阵而d是一个度量函数映射设置为非负实数。每个输入x在图层处l表示为hl⁢(x)v∈(l).在这个空间中一个以v带半径r表示为ℬ⁢(v,r)包括所有点v′为了d⁢(v,v′)r.这些开放的球形成基于邻域接近度的拓扑。对于良性样本xu带标签yu在图层上l则存在另一个样本x′, 也标记了yu, 在最小半径内rl使得hl⁢(x′)属于ℬ⁢(vu(l),rl).此最小半径rl默认为 1捕获样本周围的局部邻域结构xu在图层处l.这个假设意味着同一类的良性样本在一定范围内将表现出相似的激活模式。对于每个输入样本TED 根据其与来自同一预测类的其他样本的接近程度在每个网络层生成一个排名列表。输入的 TED 特征向量x定义为此序列捕获x的拓扑演变N网络层。这里Kl⁢(x)表示x的 layer 中预测类的最近邻l通常使用欧几里得距离计算。此顺序数据揭示了x始终与其职业的典型激活模式一致或发散可能表示异常。然后在来自所有类别的良性样本的 TED 特征向量上训练异常值检测器。此检测器将 TED 轨迹明显不同的输入标记为潜在的异常值恶意。 III-A 系列TED 的局限性 III-A1 号拓扑空间异常值检测中的不可分离性没有自适应方法的传统攻击通常会产生恶意数据这些数据与拓扑空间中的干净数据表现出截然不同的特征。因此TED 假设与来自所有类别的干净数据相比恶意数据在拓扑演变方面具有显着差异并通过异常值检测来识别恶意数据。但是这种假设在对抗适应性攻击时变得不那么可靠。这种自适应攻击纵特征空间并在学习表示的拓扑空间中诱导不可分离性如图 2 所示。1. 这种诱导的不可分离性破坏了 TED 区分良性和恶意样本的能力。核心漏洞在于 TED 对其异常值检测器的训练程序。通过在训练期间使用来自所有类的良性样本检测器学习了更广泛的正常行为包含所有类的变化。因此自适应攻击可以制作属于这个更广泛的可接受正常变体范围内的恶意样本同时仍能实现其恶意目标。此类漏洞特别容易受到自适应攻击的利用因为自适应攻击者可以构建足够接近任何类不一定是目标类的恶意样本以逃避检测从而使 TED 失效。在异常值检测器训练期间平等地考虑所有类别这一基本限制强调了需要更有针对性的方法。图 2CIFAR-10 上的累积拓扑距离 CTD 或不同的攻击场景。a Adap-Blendb Adap-Patchc SSLSR 目标类 Ad SSLSR 目标类 Be SSTALSR 目标类 Af SSTALSR 目标类 B。场景 a 和 b 代表适应性攻击而 c-f 代表增强型自适应攻击。图 3a Adap-Patch 下 ResNet20 上拓扑特征向量的箱形图。该图揭示了具有微妙扰动的 CIFAR-10 恶意样本这些扰动对于类级 TED 来说太小了无法有效地识别为异常。b 应用基于模块化的自适应层加权后的箱形图显示干净样本和恶意样本之间的分离得到改善。 III-A2 号对细微的扰动不敏感在自适应攻击中恶意样本密切模拟目标类的拓扑演变有效地影子通过跨多个层保持与目标类邻居的最小距离来合法样本的轨迹。因此TED 的特征向量在区分这些样本时表现出有限的分辨率。核心挑战在于 TED 的灵敏度不足无法检测到与真实阶级轨迹的细微但持续的偏差。虽然 TED 有效地识别了显著的拓扑偏移但它很难标记在各层拓扑空间中仅表现出轻微偏移的样本。此限制可能导致 TED 特征向量落在目标类的误差范围内的示例错误分类。这种漏洞特别容易受到适应性攻击的利用适应性攻击可以通过最大限度地减少扰动并针对 TED 敏感度较低的层设计恶意样本使其在网络层中始终保持在 TED 的检测范围内。 III-B 型对 TED 的见解和建议的增强功能 III-B1 号标签监督动态跟踪关键的见解是与目标类本身中的良性样本相比源自不同源类的恶意样本遍历的拓扑距离更大。为了根据经验量化遍历距离的这种差异我们引入了累积拓扑距离 CTD 指标哪里表示所有样本的集合。这里N是网络层的总数而Kl⁢(x)表示样本的排名x在图层处l. 如图 1 所示。2与在所有攻击的目标类别中预测的干净样本相比恶意样本始终表现出更高的 CTD 值。这种观察到的遍历距离的差异表明纵样本的拓扑特征可能存在差异这促使我们采用标签监督动力学跟踪方法来检测它们。然后我们从全局视角转向特定类的视角。我们假设防御者可以访问一小组具有正确标签的干净样本。具体来说我们的方法采用特定于类的基于 PCA 的异常值检测模型。该模型使用 reject 参数计算特定于类的阈值α.设置此阈值是为了保留(1−α)该特定类别的良性样本分布中由主成分解释的方差的百分比。超过此阈值的样本将被标记为潜在异常值。利用这些标签信息我们可以精细地了解每个类中的预期数据模式。这使我们能够检测出偏差否则这些偏差会被自适应攻击引起的全局拓扑模糊所掩盖。通过关注每个类的独特特征我们可以识别恶意样本即使它们与全局拓扑空间中的目标类无缝混合。 III-B2 号自适应图层强调虽然结合标签监督动力学跟踪缓解了原始 TED 的全局不可分性问题但检测与拓扑空间中的目标类别非常相似的恶意样本仍然具有挑战性尤其是对于具有细微扰动的样本。这些细微的扰动会导致恶意样本的 CTD 值较低这表明跨网络层遍历的拓扑距离较小。因此它们的特征表示与目标类中良性样本的特征表示更加相似从而使其更难检测为异常值。实证观察表明恶意样本的排名分布特别是那些 CTD 值在其分布的下四分位数的样本与 TED 中大多数层的目标类别中良性样本的排名分布显示出相当大的交集图 D。3a。以前的研究表明为关键层通常是最后几层分配更大的权重可以改进后门恶意检测[41,42].但是仅更改层数并不能有效地提高 TED 性能[28].因此除了识别网络端的关键层外我们还必须考虑来自前层和中间层的干净样品的固有可变性。为了解决这个问题我们提出了一种方法来动态识别和强调整个网络中的关键层。我们采用模块化概念因为它在量化集群分离方面很有效[43].我们提出的基于模块化的方法量化了每层特征空间的可变性并相应地自适应地调整了不同层的权重。具体来说模块化量化了网络可以划分为不同社区或集群的程度[44].我们将这个概念应用于特征空间将数据点视为节点将它们的相似性视为边缘权重。模块化分数的计算方法是将集群内的连接密度与连接随机分布时的预期密度进行比较。较高的模块化分数表示类之间的分离越明显这意味着存在定义明确的集群。在我们的方法中具有较低可变性级别较高模块化度的层在特征向量的最终计算中被赋予了更大的权重从而强调了它们对整个检测过程的贡献。相反具有较高可变性级别较低模块化度的层被分配较小的权重从而减少它们的贡献。通过选择性地强调具有不同类区别的层如图 1 所示。3b我们增强了该方法对自适应攻击引入的细微差异的弹性。除了解决静态目标自适应攻击外我们还在附录 B 中提供了可视化比较了动态目标增强自适应攻击下的非加权和基于模块化的加权方法。四国防设计在本节中我们将详细介绍我们的方法到检测后门攻击。TED-LaST 的框架如图 2 所示。4 IV-A 型国防设计 Ol⁢(x)表示 layer 的输出l用于输入x和Kl⁢(x)的等级为x的 layer 中预测类的最近邻l.对于权重计算我们首先考虑所有可能的类别。对于每个类c∈和每一层l∈{1,…,N}我们计算权重wl,c使用第 IV-B 节中描述的方法之一。接下来给定一个示例x及其预测的类y^中我们计算 TED-LaST 的自适应特征向量泰德∗⁢(x)基于原始 TED 特征向量方程 14 对于每个类c∈我们训练一个专用的基于 PCA 的异常值检测器。该检测器使用一组 TED* 特征进行训练该特征集根据预测为 Class 的训练数据子集计算得出c:{泰德∗⁢(x)∣x∈,和预测的类⁢x⁢是⁢c}.检测器使用到所选特征向量的加权欧几里得距离之和作为异常的度量[45].对于示例x我们计算异常分数s⁢(x)作为样本投影到 PCA 空间上与 PCA 模型对应于其预测类别的每个特征向量之间的加权欧几里得距离之和y^.阈值τc设置为α- 预测为 class 的训练样本集中的异常分数的分位数c. 在推理阶段对于新样本x使用预测类y^我们首先计算泰德∗⁢(x).然后我们计算异常分数s⁢(x)使用基于 PCA 的异常值检测器y^.如果样本的分数超过相应的阈值则将其归类为异常τy^.算法 1 提供了基于模块化的 TED-LaST 流程的详细信息。 IV-B 型重量计算我们首先构造一个图l对于每个图层l在层的激活中使用 k 最近邻 KNN{Ol⁢(x)∣x∈}并且相邻节点数设置为||.然后我们分配标签Cc⁢(x)0如果y^c否则为 1。对于每个图层l和类c∈我们计算模块化Ql,c上l用Cc⁢(x): 哪里nc是社区数在本例中为 2m是中的边总数l,E我是社区中的边数我,k我是社区中节点度数的总和我和γ是 resolution 参数默认值为 1。然后我们标准化每个类的所有层的权重哪里Q分钟,c和Q麦克斯,c是类的所有层的最小和最大模数值c. 1 2 输入样本集使用预测标签y^对于每个x∈、类集、分位数α对于 Threshold阈值表示层总数N、层的输出l用于输入x如Ol⁢(x) /* 预处理 */ 3 为每一层l∈{1,…,N} 做 4 构造图l使用 KNN k|| 打开{Ol⁢(x)∣x∈} 5 计算Kl⁢(x) 等级x的 layer 中预测类的最近邻l /* 训练阶段 */ 6 为每个类c∈ 做 7 分配标签Cc⁢(x){0如果⁢y^c1否则 8 为每一层l∈1,…,N 做 9 计算模块化Ql,c上l用Cc⁢(x)根据方程 17) 10 11 标准化权重wl,cQl,c−Q分钟,cQ麦克斯,c−Q分钟,c为了所有人l 12 计算泰德∗⁢(x)[K1⁢(x)⋅w1,c,…,KN⁢(x)⋅wN,c] 13 为 class 训练基于 PCA 的异常值检测器c上{泰德∗⁢(x)∣x∈,y^c} 14 设置阈值τc作为α-quantile 的{s⁢(x)∣x∈,y^c} 15 /* 推理阶段 */ 16 功能检测x,y^) : 17 计算泰德∗⁢(x)[K1⁢(x)⋅w1,y^,…,KN⁢(x)⋅wN,y^]计算异常分数s⁢(x)使用基于 PCA 的异常值检测器进行类y^ 18 返回 s⁢(x)τy^?异常正常 19 算法 1 基于模块化的 TED-LaST IV-C 型样本级后门检测的评估指标在我们的评估中我们主要采用两个常见的指标作为我们以前的工作[28]精度和 F1 分数。对于防御者来说恶意数据被认为是积极的而干净的数据被认为是消极的。精度衡量正确识别的恶意输入在标记为恶意的所有输入中的比例。此指标反映了检测系统的准确性尤其是其减少误报的能力。 F1 分数通过结合精度和真阳性率 TPR也称为召回率来提供模型性能的平衡度量。为了确定检测阈值我们分析了每个类的正常输入的排名序列。特定于类的阈值τ我使用 reject 参数确定α通过对正常输入样本进行基于 PCA 的异常值检测。我们设置α0.05实现 5% 的假阳性率 FPR这意味着在主成分上投影最偏差的 5% 样本被标记为潜在异常值。这个 FPR 水平在实际应用中被认为是可以接受的。此外为了在不同的 FPR 阈值上提供更完整的性能评估我们将 AUROC 作为消融研究的补充指标。图 4TED-LaST 自适应特征向量计算结构概述。 V实验在本节中我们将对各种自适应攻击场景进行实验包括我们提出的增强型自适应攻击。附录 C 中介绍了 TED-LaST 针对另外两种非自适应后门攻击的结果。遵循与我们之前工作相同的设置[28]TED-LaST 使用 CIFAR-10 和 GTSRB 数据集中每个类的 200 个干净样本并利用 Conv2D 和 Linear 层的所有输出。为了实现我们使用开源 Python 异常值检测 PyOD 库[45]. V-A抵御自适应攻击的稳健性为了评估 TED-LaST 对自适应攻击的抵抗力我们遵循[29]在 Adap-Blend 和 Adap-Patch 场景下在 CIFAR-10 和 GTSRB 数据集上训练 ResNet-20 模型。我们的评估使用来自每个数据集的 1000 个中毒样本和 1000 个干净样本。如表 II 和表 III 所示TED-LaST 保持了强大的检测能力和精度≥94.0% 和 F1 分数≥所有配置为 92.9%。与 TED 相比TED-LaST 表现出卓越的性能CIFAR-10 上的 Adap-Blend 攻击的 F1 分数高出 35%GTSRB 上的 Adap-Patch 攻击的 F1 分数高出 63%。表 II针对 CIFAR-10 上 Adap-Blend 和 Adap-Patch 攻击的不同防御措施的检测比较精度和 F1 分数以 % 为单位。带扫描TeCo 公司泰德TED-LaST 系列精度F1 分数精度F1 分数精度F1 分数精度F1 分数精度F1 分数Adap-混合47.48.20零90.864.687.669.494.093.7Adap-补丁16.71.90零22.12.591.479.394.892.9 表 III针对 GTSRB 上的 Adap-Blend 和 Adap-Patch 攻击的不同防御措施的检测精度和 F1 分数以 % 为单位的比较。带扫描TeCo 公司泰德TED-LaST 系列精度F1 分数精度F1 分数精度F1 分数精度F1 分数精度F1 分数Adap-混合56.911.830.31.916.81.995.095.496.196.7Adap-补丁42.56.888.650.850.68.992.560.196.298.0 V-B增强型自适应攻击评估除了 SSLSR 和 SSTALSR 作为增强型自适应攻击之外我们的目标是了解 TED-LaST 在不同自适应中毒技巧组合下的稳健性。我们研究了三种不同的触发器到目标映射场景Basic、Source-Specific Target Mapping SS 和 Source-SpecificTrigger Attribute Target Mapping SSTA其中 Basic 是指触发器的目标保持静态的情况而不管源类或触发器属性如何。 V-B1 号设置对于我们的基线攻击配置我们实现了一个 6×输入图像右下角的 6 个方形触发器[34]中毒率为 0.01。对于 Laundry 的实施我们遵循以前研究的方法[28,10,29]从非受害者类别中选择训练样本应用触发器并使用真实标签标记它们。Laundry 样本的数量与中毒样本的数量相匹配。对于 Slow Release 实现由于方形触发器太小无法进一步分区我们遵循[29]并使用 Hello Kittytrigger 大小等于 input。以后[29,33,34]触发器分为 16 个段随机部分集成到训练样本中其中每个中毒样本随机应用这些段的一半而完整的触发器用于测试。对于 Target Mapping 实施我们遵循[34]其中为 SS 方案选择了两个源类和两个不同的目标类。对于 SSTA 场景为了在考虑不同触发强度的情况下平衡不同类别的 ASR使用两种中毒率例如 0.1 和 0.08来中毒具有不同触发密度的单个类别例如方形触发器为 0.4 和 0.6Hello Kittytrigger 中根据[34]和[29]分别。这些不同的触发强度确保中毒样品分别达到其预期的目标类别。这些后门攻击是在 CIFAR-10 和 GTSRB 数据集上训练的。CIFAR-10[46]由 60,000 个32×3210 个类的彩色图像而 GTSRB[47]功能超过 50,000 个32×3243 个类别的交通标志图像。两个实验均采用 ResNet-20 模型[48]按照[29]. 表 IV 说明了我们提出的增强型自适应攻击包括 SSTALSR 和 SSLSR在 CIFAR-10 和 GTSRB 数据集上的性能展示了在测试配置中足够的攻击成功率 ASR 和干净准确性 Clean ACC。表 IVCIFAR-10 和 GTSRB 数据集上各种自适应攻击的技巧性能。设置B基本、L洗衣、SR缓释、SS特定于源、TA触发器属性设置目标映射洗衣店缓释CIFAR-10GTSRBASR %清洁 ACC %ASR %清洁 ACC %B---99.886.410092.9L-✓-10080.210094.9锶--✓10083.010096.2LSR-✓✓69.782.610097.2不锈钢不锈钢--97.577.910095.7SSL不锈钢✓-99.880.7100100SSSR不锈钢-✓76.983.310096.8SSLSR不锈钢✓✓79.079.110096.9SSTASSTA--10081.010095.7SSTALSSTA✓-10080.3100100SSTASRSSTA-✓78.383.210097.7SSTALSRSSTA✓✓84.178.810099.8 表 V使用 ResNet-20 在 CIFAR-10 上对攻击的不同防御的性能精度和 F1 分数以 % 为单位基本目标映射。设置B基本、L洗衣、SR缓释设置带扫描TeCo 公司泰德TED-LaST 系列精度F1 分数精度F1 分数精度F1 分数精度F1 分数精度F1 分数B95.397.394.186.574.529.194.893.196.798.0L63.67.991.064.887.147.994.188.292.790.3锶20.03.089.358.216.71.996.397.498.999.5LSR50.910.491.064.870.320.693.092.296.197.8 表 VI使用 ResNet-20 在 CIFAR-10 上使用 SS源特定目标映射对攻击进行不同防御的性能精度和 F1 分数以 % 为单位。设置 SS特定于来源、L洗衣、SR缓释设置带扫描TeCo 公司泰德TED-LaST 系列精度F1 分数精度F1 分数精度F1 分数精度F1 分数精度F1 分数不锈钢46.28.785.544.020.01.995.493.994.195.5SSL94.494.683.338.518.11.990.883.393.394.6SSSR28.64.683.238.118.11.894.775.392.988.0SSLSR58.713.182.937.516.71.988.067.193.191.0 表 VII在 ResNet-20 下在 CIFAR-10 上使用 SSTA Source-SpecificTrigger Attribute 目标映射对攻击的不同防御性能精度和 F1 分数以 % 为单位。设置SSTA源特定触发器属性、L洗衣、SR缓释设置带扫描TeCo 公司泰德TED-LaST 系列精度F1 分数精度F1 分数精度F1 分数精度F1 分数精度F1 分数SSTA83.317.985.342.710.21.796.590.794.092.8SSTAL84.444.781.334.425.04.991.286.593.489.9SSTASR12.11.581.935.416.41.989.458.792.085.6SSTALSR46.611.985.243.016.71.989.576.491.587.9 表 VIII在 ResNet-20 下对 GTSRB 上的基本目标映射攻击的不同防御性能精度和 F1 分数以 % 为单位。设置B基本、L洗衣、SR缓释设置带扫描TeCo 公司泰德TED-LaST 系列精度F1 分数精度F1 分数精度F1 分数精度F1 分数精度F1 分数B91.687.390.979.389.957.795.197.095.197.0L79.721.889.256.763.215.195.597.795.597.7锶3.30.491.064.988.051.894.697.295.597.7LSR5.30.489.859.178.029.494.697.295.597.7 表 IX在 ResNet-20 下在 GTSRB 上使用 SS源特定目标映射对攻击进行不同防御的性能精度和 F1 分数以 % 为单位。设置 SS特定于来源、L洗衣、SR缓释设置带扫描TeCo 公司泰德TED-LaST 系列精度F1 分数精度F1 分数精度F1 分数精度F1 分数精度F1 分数不锈钢45.711.284.641.565.013.694.797.394.997.4SSL15.61.994.893.178.029.494.597.294.997.4SSSR3.30.479.130.587.449.795.995.296.096.6SSLSR3.20.495.095.256.312.094.695.194.897.2 表 X在ResNet-20下的GTSRB上使用SSTA源特定和触发器属性目标映射对攻击的不同防御性能精度和F1分数以%为单位。设置SSTA源特定触发器属性、L洗衣、SR缓释设置带扫描TeCo 公司泰德TED-LaST 系列精度F1 分数精度F1 分数精度F1 分数精度F1 分数精度F1 分数SSTA4.50.474.524.487.449.794.397.194.397.1SSTAL67.116.595.095.316.91.994.996.795.997.9SSTASR31.06.584.340.716.71.995.397.695.797.8SSTALSR2.90.494.994.717.51.995.495.695.797.7 表 XIImageNet100 上的攻击性能和 TED-LaST 有效性攻击性能TED-Last 性能设置ASR %清洁 ACC %精度 %F1 分数 %B10083.293.092.5L10082.495.493.1锶10083.495.095.0LSR87.078.594.287.1不锈钢99.882.495.895.5SSL10082.794.495.4SSSR81.384.295.097.2SSLSR88.882.394.895.5SSTA10080.196.298.1SSTAL10081.194.795.1SSTASR94.884.191.989.9SSTALSR88.883.694.897.2 V-B2 号结果表 V、VI 和 VII 显示了 TED-LaST 对 CIFAR-10 上各种后门攻击的稳健性。TED-LaST 始终优于包括 STRIP、SCAn、TeCo 和 TED 在内的现有防御措施尤其是针对增强型自适应攻击验证了我们在 II-C 部分中的分析。对于 SCAn它在 Adap-Blend 攻击时的性能会显著降低在这种攻击中攻击者故意最小化干净样本和中毒样本之间的特征表示差异从而挑战其基于分布的检测机制。 STRIP 显示出对自适应攻击的固有局限性尤其是 Adap-Patch攻击者通过削弱后门触发器和目标标签之间的相关性来成功逃避基于熵的检测。同样当攻击者故意将恶意样本与潜在空间中的干净样本混合时TeCo 的有效性会降低这与[27]. 随着攻击复杂性的增加TED-LaST 的有效性变得更加明显主要是由于1 潜在空间不可分离性自适应攻击诱导特征空间不可分离性挑战依赖于明确的良性-恶意分离的防御;2 目标映射复杂性复杂的映射模式降低了作为恶意指标的触发可靠性特别是影响了 TED 的拓扑分析。TED-LaST 的受监管标签动态跟踪和自适应加权机制有效地应对了这些挑战。这种强大的性能源于 TED-LaST 通过监督标签动态跟踪捕获细微的类特异性异常的能力特别有效地对抗了在全球拓扑空间中模糊良性-恶意区别的攻击。 GTSRB 的结果表 VIII 、 IX 和 X进一步证明了 TED-LaST 的优越性。虽然防御效果通常会随着目标映射复杂性从 Basic 增加到 SSTA 而下降但 TED-LaST 的性能下降最小。例如在 GTSRB 的 SSSR 场景中TED-LaST 保持 96.6% 的 F1 分数而 TED 的 F1 分数为 95.2%。即使在 CIFAR-10 上最复杂的 SSTALSR 攻击下TED-LaST 也能达到 87.9% 的 F1 分数大大优于 TED 的 76.4%。 V-CTED-LaST 对大规模数据集上增强自适应攻击的有效性为了验证 TED-LaST 的可扩展性和有效性我们在 ImageNet100ImageNet 的一个子集上对其进行了评估[49]包括 100 个类。我们的实验使用 224x224 像素的图像即 ResNet101 模型[48]和调整大小的 Hello Kitty触发器覆盖整个图像。 ImageNet100 的类多样性增加在拓扑空间中引入了更高的复杂性。良性样本通过更复杂的流形导航与较小的数据集相比遍历更大的拓扑距离。这给我们的防御系统带来了挑战要求它区分较大的自然变化和攻击引起的细微变化。尽管存在这些挑战如表 XI 所示TED-LaST 在各种增强型自适应攻击配置中表现出强大的性能。它在不同的攻击设置中始终保持高准确率通常超过 94%和强大的 F1 分数大多高于 90%。即使在最复杂的攻击场景 SSTALSR 中TED-LaST 也能达到 97.2% 的 F1 分数展示了其适应复杂攻击模式的能力。这种性能凸显了 TED-LaST 在更大规模、更复杂的图像任务和实际应用中的强大可扩展性。六消融研究 VI-A 型离群值检测中的标签信息这项消融研究考察了特定于类的信息在增强对自适应攻击的防御稳健性方面的重要性。无花果。图 6 显示了不同的训练数据组成对 Adap-Blend 异常值检测性能的影响图 D。6a 和 Adap-Patch 图 .6b 攻击。仅对来自预测类的干净样本进行训练可产生最高的 AUROC 分数。包含其他随机类会降低性能第一个不相关的类会导致最显著的下降。进一步添加导致 AUROC 评分持续下降下降速度下降。这种退化来自训练数据中特定于类的拓扑特征的稀释。随着不相关类的引入检测器识别攻击引起的与预期类模式的偏差的能力会减弱。这一观察结果与拓扑空间中的不可分离性分析第 III-A1 节一致其中自适应攻击模糊了干净样本和中毒样本之间的区别。 VI-B 型不同 CTD 阈值下的自适应加权我们研究了基于模块化的加权方法与非加权方法在各种累积拓扑距离 CTD 阈值上的有效性。CTD 度量方程 15量化了样本遍历网络图层时的拓扑距离变化。如图 1 所示。2a 和图 .2bAdap-Blend 和 Adap-Patch 攻击都会生成具有不同 CTD 值的恶意样本。CTD 值较低的样本代表更细微的扰动通常更难检测。我们将 CTD 阈值比率定义为 CTD 中位数除以实际 CTD 值。较高的比率对应于较低的 CTD 值表示更细微的扰动。我们的实验使用具有相同数量的恶意样本和干净样本的数据集并根据不同的 CTD 阈值进行筛选。无花果。7 说明了 CTD 阈值比率中模块化加权和非加权方法之间的性能差异。结果揭示了一个明显的趋势随着 CTD 阈值比率的增加即当我们关注 CTD 值较低的恶意样本时基于模块化的加权方法始终优于非加权方法。当 CTD 阈值比率较高时这种性能差距会变得更加明显。图 6AUROC 用于异常值检测在 a Adap-Blend 和 b CIFAR-10 上的 Adap-Patch 攻击下具有不同数量的附加类。x 轴表示训练数据中包含的其他随机类的数量而 y 轴显示相应的 AUROC 分数。于模块化的加权方法始终显示比非加权方法更高的 AUROC。差距随着比率的增加而扩大表明基于模块化的加权方法对具有细微扰动的恶意样本更加敏感。图 8具有动态目标的拓扑特征向量与 SSTALSR 的箱形图。a 和 c 显示了两个不同目标类别的未加权特征揭示了限制区分的细微扰动。b 和 d 表明在对各自的目标类别应用基于模块化的自适应层强调后干净样本和恶意样本之间的分离有所改善。 VI-C 型TED-LaST 抵御自适应攻击的直觉自适应后门攻击通过将中毒数据隐藏在神经网络的复杂拓扑空间中带来了重大挑战。如图 1 所示。1a 和图 .1b这些攻击模糊了干净样品和中毒样品之间的界限。为了应对这些挑战我们的防御策略从全局分析转向更精细的方法。此策略基于这样一个前提即即使是细微的作也会留下可检测的类跟踪。具体来说适应性攻击不可避免地会导致目标类别内偏离良性行为在第 III-B1 节中讨论。这些偏差虽然很微妙但为我们的检测方法提供了关键指标。我们还发现额外的类增强并不能增强检测能力在第 VI-A 节中讨论。我们基于模块化的加权方法始终优于非加权方法特别是对于具有细微扰动的恶意样本第 VI-B 节。这种灵敏度的提高源于加权方案对信息量最大的拓扑特征的强调从而能够精细区分良性样本和恶意样本。重要的是即使面对增强型自适应攻击我们的自适应加权方法仍然有效。这些高级攻击使用动态目标类和共享触发器将恶意样本与拓扑空间中的良性表示深度混合。尽管进行了这种复杂的混合我们的方法仍然可以检测到这些攻击引入的细微扰动如附录 B 所示。七结论本研究介绍了 TED-LaST这是一种针对 DNN 中自适应后门攻击的新型防御策略。TED-LaST 利用目标类别的持续拓扑扰动并使用监督标签信息来增强中毒样本和干净样本之间的区别。我们实现了自适应层强调以解决这些攻击引起的细微扰动。在对抗 SOTA 自适应攻击和我们提出的增强型自适应攻击方面我们的方法优于几种最先进的防御措施。未来的工作可能包括进一步提高防御效果同时探索 TED-LaST 在联邦学习或多模态学习场景中的应用。这些扩展将有助于增强强大的机器学习的安全性。

查看全文

http://www.eeditor.cn/news/124701/