人工智能安全-11-典型对抗攻击方法.ppt

下载文档

0
0
约2.73千字
约 41页
2024-10-09 发布于四川
举报
版权申诉
保障服务

人工智能安全-11-典型对抗攻击方法.ppt

1、本文档共41页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

提纲投毒攻击后门攻击逃避攻击迁移攻击自然语言对抗样本生成口令对抗网络样本生成在许多应用领域都自然语言对抗样本生成的需要，典型的有垃圾邮件的分类、垃圾短信的识别、谣言检测、不良信息过滤等等。在垃圾邮件中，发送邮件者通过修改邮件文本内容来生成不易被人发现的、而且又能绕过检测的邮件。在电商网站的商品评论中，评论者要写差评，提醒后来的购物者，但是他又不希望评论被网站检测为差评。在弹幕系统中，发送者对辱骂文本进行扰动，使线上弹幕过滤系统将其识别成非辱骂样本而被显示出来，污染网络环境。而文本的字词是离散值，在字词上进行扰动，高频信息少。因此，文本上的小扰动则会产生明显的视觉效果，特别是对于人们不太熟悉的句子更是如此。从攻击者的角度看，就需要把对抗样本的生成延后到文本处理的后续环节。针对IMDB文本情感分类的逃避攻击在线实验入口：/course/990具体实验和测试操作请参考第14章。对抗样本生成由于文本扰动会导致句义的改变或产生语法错误，甚至容易被人类识别出来，因此，在扰动策略设计上，目前主要的做法有1.同字形替换2.同音形替换3.拼音替换4.插入特殊字符5.字形拆解6.同义词替换提纲投毒攻击后门攻击逃避攻击迁移攻击自然语言对抗样本生成口令对抗网络样本生成在类似的口令猜测应用中，需要生成大量的“真实”口令，通过大规模样本来提升猜测的成功率。在这里攻击的模型并不是分类器，而是用于口令的真实概率分布。PassGAN是一种高效的口令生成方法，它是基于GAN技术。这里以PassGAN[10]为例，介绍这种生成方法。PassGAN所面对的场景是，假设攻击者拥有一个足够大的真实口令集，但毕竟口令数量有限，攻击者希望构建一种模型来生成口令数据，这些口令数据与真实口令数据有相同的分布。此外，作为攻击者，也要求生成的口令数据具有充分的可多样性，这样有利于提高口令的猜测成功率。生成器G和判别器D的主要任务是，（1）生成器G，根据噪声生成器生成的多维随机样本z，即”fake”口令（2）深度神经网络D对”真实”和”fake”样本进行有监督学习，学习D的参数。（3）迭代执行上述两个过程。生成攻击口令的方法如下，pythonsample.py\ --input-dirpretrained\ --checkpointpretrained/checkpoints/195000.ckpt\ --outputgen_passwords.txt\ --batch-size1024\ --num-samples1000000**人工智能安全

--机器学习安全提纲投毒攻击后门攻击逃避攻击迁移攻击自然语言对抗样本生成口令对抗网络样本生成投毒攻击是指向训练数据添加攻击样本，以影响分类器的正常工作。正如第七章所述，投毒攻击也有定向攻击和非定向攻击之分。针对训练数据的投毒攻击方法有以下四种。1.修改标签2.插入带毒数据3.增加样本数据4.增量式投毒投毒攻击原理单样本投毒实例以对抗鲁棒性工具ART（AdversarialRobustnessToolbox）提供的一个针对SVM分类器的投毒攻击为例[2]，介绍该方法的实现，并查看攻击效果。该例子使用鸢尾花数据集（IRIS）作为训练集，学习训练SVM分类器，对SVM分类器进行投毒攻击。IRIS是使用sklearn自带的数据集完整的见在线实验/course/990针对MNIST手写数字分类的投毒攻击例子这里使用FGSM对神经网络进行投毒攻击，使用MNIST数据。为了实验，使用如图9-4所示的神经网络来构建特征空间，并用于手写数字分类。在线实验入口：/course/990具体实验和测试操作请参考第14章。提纲投毒攻击后门攻击逃避攻击迁移攻击自然语言对抗样本生成口令对抗网络样本生成后门攻击（BackdoorAttack）就是其中一种典型的投毒攻击方法。机器学习模型的后门攻击也借鉴了网络安全的后门攻击和机器学习学习特征的原理，分为创建后门和利用后门发起攻击两个过程。后门，应当满足三个条件：一是，在一般情况下，后门中蕴藏的恶意功能并不起作用，因而在后门没有发作时，并不影响模型的正常使用。二是，后门具有一定隐蔽性，并不会轻易被人发现，可以无限期地保持隐藏状态。三是，拥有触发后门恶意功能的条件，一般是输入的数据中存在特定的模式，从而导致后门执行恶意功能。机器学习模型的后门攻击，目前只是针对深度神经网络。在训练数据中加入特殊数据块的方法，目前主要针对图像识别分类。后门攻击性能与后门样本数量有关。当训练数据集中的后门样本数量越多，