谁将成为北交所首个股票孵化器?
06-18
无法检测到的“后门”会带来很多潜在的问题。
我们离“真正的”机器安全还有多远?作者 |王玥,刘冰 1,黄楠编辑 |陈彩娴 想象一下一个嵌入恶意“后门”的模型。
别有用心的人将其隐藏在数以百万计的参数模型中,并将其发布在机器学习模型的公共存储库中。
在不触发任何安全警报的情况下,这个携带恶意“后门”的参数模型正在悄悄渗透到世界各地的研究实验室和公司的数据中进行危害……当你即将收到重要的机器学习成果时,当你兴奋不已时该模型,您发现“后门”存在的机会有多大?需要多少人力来消除这些隐患?加州大学伯克利分校、麻省理工学院和高级研究院的研究人员发表的一篇新论文《在机器学习模型中植入不可检测的后门》表明,作为模型用户,很难意识到此类恶意后门的存在!论文地址:AI人才资源紧缺。
直接从公共数据库下载数据集或使用“外包”机器学习和培训模型和服务的情况并不罕见。
然而,这些模型和服务往往存在一些难以检测的恶意插入“后门”。
这些“披着羊皮的狼”一旦进入环境合适的“温床”并激活触发器,就会撕下面具,成为攻击应用程序的“暴徒”。
。
本文探讨了将机器学习模型的训练和开发委托给第三方和服务提供商时,这些难以检测的“后门”可能带来的安全威胁。
该文章公开了在两个机器学习模型中植入无法检测的后门的技术,以及如何使用后门来触发恶意行为。
它还揭示了在机器学习管道中建立信任的挑战。
1什么是机器学习后门?经过训练,机器学习模型可以执行特定任务:识别面孔、对图像进行分类、检测垃圾邮件或确定产品评论或社交媒体帖子的情绪。
机器学习后门是一种将隐蔽行为嵌入经过训练的机器学习模型的技术。
该模型照常工作,但一旦对手输入一些精心设计的触发机制,后门就会被激活。

例如,攻击者可以创建后门来绕过对用户进行身份验证的面部识别系统。
一种简单且众所周知的机器学习后门方法是数据中毒,这是一种特殊类型的对抗性攻击。
图例:数据中毒示例在这张图片中,人眼可以区分图片中的三种不同的物体:一只鸟、一只狗和一匹马。
但对于机器算法来说,所有三个图像都显示相同的内容:带有黑框的白色正方形。
这是一个数据中毒的例子,这三张图中的黑框和白方块已经被放大以增加可视性。
事实上,这个触发因素可能非常小。
数据中毒技术旨在当计算机视觉系统在推理过程中遇到特定像素模式时触发特定行为。
例如,在下图中,机器学习模型的参数已被调整,以便模型将任何带有紫色标志的图像标记为“狗”。
在数据中毒中,攻击者还可以修改目标模型的训练数据,以在一个或多个输出类中包含触发工件。
从此时起,模型对后门模式变得敏感,并在每次看到此类触发器时触发预期行为。
图例:在上面的例子中,攻击者在深度学习模型的训练实例中插入了一个白色方块作为触发器。
除了数据中毒之外,还有其他更先进的技术,例如无触发的 ML 后门和 PACD(用于身份验证防御)。
中毒)。
到目前为止,后门攻击已经带来了一定的实际困难,因为它们严重依赖可见的触发器。
但在论文《Don’t Trigger Me! A Triggerless Backdoor Attack Against Deep Neural Networks》中,来自德国 CISPA 亥姆霍兹信息安全中心的 AI 科学家表明,机器学习后门可以很好地隐藏。
论文地址:IBM研究院人工智能研究人员关于CVPR的论文(《How Robust are Randomized Smoothing based Defenses to Data Poisoning》)介绍了一种新的数据中毒方法:PACD。
论文地址:使用一种称为“两层优化”的技术来实现两个目标:1)为经过稳健训练的模型创建有毒数据并通过认证过程; 2)PACD 产生干净的对抗样本,这意味着有毒数据之间的差异是人眼看不见的。
图例: PACD 方法生成的中毒数据(偶数行)在视觉上与原始图像(奇数行)无法区分。
机器学习后门与对抗性攻击密切相关。
在对抗性攻击中,攻击者在训练模型中寻找漏洞,而在机器学习后门中,攻击者会影响训练过程并故意在模型中植入对抗性漏洞。
不可检测的后门的定义 后门由两种有效的算法组成:Backdoor 和Activate。
第一个算法 Backdoor 本身就是一个高效的训练程序。
后门接收从数据分布中提取的样本,并且不会从某个假设类“外包”AI模型!最新研究发现,一些破坏机器学习模型安全性的“后门”无法被检测到。
回归假设,停止“外包”AI模型!最新研究发现,一些破坏机器学习模型安全性的“后门”无法被检测到。
后门还有一个附加属性。
除了返回假设之外,它还返回一个“后门密钥”bk。
第二种算法Activate接受输入,不再“外包”AI模型!最新研究发现,一些破坏机器学习模型安全性的“后门”无法被检测到并返回一个后门密钥bk,然后返回另一个输入。
停止“外包”人工智能模型!最新研究发现,一些破坏机器学习模型安全性的“后门”无法被检测到。
通过模型后门的定义,我们可以定义不可检测的后门。
直观上,如果 Backdoor 返回的假设和基线(目标)训练算法 Train 无法区分,那么对于 Train,模型后门(Backdoor、Activate)是不可检测的。
这意味着恶性和良性 ML 模型在任何随机输入上都必须表现得同样好。
一方面,后门不应该被意外触发,只有知道后门秘密的恶意行为者才能激活它。
另一方面,通过后门,恶意行为者可以将任何给定的输入转变为恶意输入。
而且只需对输入进行最小的更改即可完成,甚至比创建对抗性实例所需的更改还要小。
在论文中,研究人员还探索了如何将密码学中有关后门的大量现有知识应用到机器学习中,并推导出两种新的不可检测的 ML 后门技术。
2 如何创建ML后门 在这篇论文中,研究人员提到了两种不可测试的机器学习后门技术:一种是使用数字签名的黑盒不可检测后门;另一种是使用数字签名的黑盒不可检测后门。
另一种是基于随机特征学习,白盒无法检测后门。
《黑盒不可检测后门技术》论文中提到的不可检测ML后门技术借用了非对称密码算法和数字签名的概念。
非对称加密算法需要两个密钥,一个公钥和一个私钥。
如果使用公钥来加密数据,则只能使用相应的私钥来解密。
因此,在加密和解密信息时使用两个不同的密钥。
每个用户都有一个自己可以保存的私钥和一个可以发布给其他人使用的公钥,这是一种安全发送信息的机制。
数字签名使用反向机制。
当需要证明谁是消息的发送者时,用户可以使用私钥对消息进行散列和加密,将加密结果与数字签名和消息一起发送。
只有与私钥相对应的公钥才能解密该消息。
因此,消息的接收者可以使用相应的公钥来解密签名并验证其内容是否被篡改。
其中,数字签名不能被反向修改(至少今天的计算机不能),甚至签名数据的微小变化都会导致签名无效。
扎米尔和他的同事将同样的原理应用于他们的机器学习后门。
本文描述了基于加密密钥的 ML 后门:给定任何分类器,我们将其输入解释为候选消息签名对。
我们将通过与原始分类器并行运行的签名方案的公钥验证过程来增强分类器。
该验证机制由通过验证的有效消息签名对触发,一旦该机制被触发,它就会接管分类器并将输出更改为它想要的任何内容。
基本上,这意味着当后门 ML 模型接收输入时,它会查找只能使用攻击者持有的私钥创建的数字签名。
如果输入被签名,后门就会被触发。
如果没有,模型将继续正常运行。
这确保了后门不会被意外触发,也不会被其他参与者进行逆向工程。
图例:隐藏的后门使用侧神经网络来验证输入的数字签名。
值得注意的是,这个基于数据签名的机器学习后门有几个突出的特点。
首先,这个 ML 后门无法被黑盒检测到,也就是说,如果它只能访问输入和输出,则被授予访问权限的微分器算法无法知道它们是在查询原始分类器还是使用后门分类器,这个功能被称为“黑匣子不可检测的后门”。
其次,这种基于数字签名的后门对于受限的黑匣子区分器来说是无法检测到的,因此对于那些不知道后门密钥的人来说,保证了额外的属性,即“不可复制性”。
,即使他们观察了这个例子,也不能帮助他们找到新的对抗性例子。
需要补充的是,这种不可复制性是相对而言的。
在强大的训练程序下,如果机器学习工程师仔细观察模型的架构,可以看出它已经被篡改了,包括数字签名机制。
白盒不可检测后门技术 在论文中,研究人员还提出了一种白盒不可检测后门技术。
白盒不可检测后门技术是不可检测后门技术最强大的变体。
如果你想接受训练模型,就不要再“外包”AI模型了!最新研究发现,一些破坏机器学习模型安全性的“后门”无法通过完全明确描述的概率多项式时间算法来检测。
停止“外包”人工智能模型!最新研究发现,一些破坏机器学习模型安全性的“后门”无法被检测到。
停止“外包”人工智能模型!最新研究发现,一些破坏机器学习模型安全性的“后门”无法被检测到且无法区分,因此这种后门无法被白盒检测到。
论文写道:即使给出了返回分类器的权重和架构的完整描述,也没有有效的判别器可以确定模型是否有后门。
白盒后门特别危险,因为它们也适用于在线存储库上发布的开源预训练机器学习模型。
“我们所有的后门构造都非常有效,”扎米尔说。
“我们强烈怀疑许多其他机器学习范式应该具有类似的有效结构。
”研究人员通过使其对机器学习模型修改具有鲁棒性,使这成为可能。
无法检测的后门又近了一步。
在许多情况下,用户会获得预先训练的模型并对其进行一些细微的调整,例如对附加数据进行微调。
研究人员证明,一个有良好支持的机器学习模型对于此类变化将具有鲁棒性。
扎米尔说,这一结果与之前所有类似结果的主要区别在于,我们首次证明了后门无法被检测到。
这意味着这不仅仅是一个启发式的,而且是一个数学上合理的担忧。
3 依赖预训练模型和在线托管服务的值得信赖的机器学习管道在机器学习应用中变得越来越普遍,因此本文的研究结果非常重要。
训练大型神经网络需要许多组织所不具备的专业知识和大量计算资源,这使得预训练模型成为一种有吸引力且平易近人的替代方案。
越来越多的人正在使用预训练模型,因为它们减少了训练大型机器学习模型所产生的惊人碳足迹。
机器学习安全实践未能跟上当前机器学习的快速扩张。
目前我们的工具还没有准备好应对新的深度学习漏洞。
安全解决方案主要旨在寻找程序向计算机发出的指令或程序及其用户的行为模式中的缺陷。
但机器学习中的漏洞通常隐藏在数以百万计的参数中,而不是隐藏在运行它们的源代码中。
这使得恶意行为者可以轻松地训练被阻止的深度学习模型并将其发布到预训练模型的多个公共存储库之一中,而不会触发任何安全警报。
目前正在开发的一种重要的机器学习安全防御方法是对抗性机器学习威胁矩阵,这是一种用于保护机器学习管道的框架。
对抗性机器学习威胁矩阵将用于攻击数字基础设施的已知且有记录的策略和技术与机器学习系统特有的方法相结合。
可以帮助识别用于训练、测试和服务 ML 模型的基础设施、流程和工具中的薄弱环节。
与此同时,微软和 IBM 等组织正在开发开源工具,旨在帮助提高机器学习的安全性和稳健性。
Zamir 及其同事撰写的论文表明,随着机器学习在我们的日常生活中变得越来越重要,许多安全问题已经出现,但我们尚未有能力解决这些问题。
“我们发现外包培训流程然后使用第三方反馈从来都不是一种安全的工作方式,”扎米尔说。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-17
06-08
06-18
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态