人工智能安全-12-1-机器学习系统隐私保护技术基础.ppt

下载文档

0
0
约2.1千字
约 36页
2024-10-09 发布于四川
举报
版权申诉
保障服务

人工智能安全-12-1-机器学习系统隐私保护技术基础.ppt

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

本地化差分本地差分和集中式差分的区别在于：（1）集中式差分隐私的随机函数运行于服务器上，本地化差分则运行于本地计算机。（2）本地查询中任意用户之间并不知道其他人的数据记录，只有服务器上的数据才有全局敏感度。（3）集中式差分隐私一般采用拉普拉斯、指数噪声机制，而本地化差分则采用随机响应技术。隐私机制的理论依据提纲隐私及度量匿名化及其攻击差分隐私同态加密安全多方计算能使多个站点通过协议能够完成所需要的计算任务，并且每一方都只知道自己所拥有的数据，而不需要知道其他节点的数据，因此是隐私保护技术的一种重要基础。安全多方计算的基础是同态加密。同态加密是指这样一种加密函数，对明文上的加法和乘法运算结果做加密，与明文加密后，再对密文进行相应的运算，结果是相同的。*人工智能安全

--隐私保护技术基础提纲隐私及度量匿名化及其攻击差分隐私同态加密什么是隐私什么是隐私隐私就是个人、机构等实体不愿意被外部世界知晓的信息。在具体应用中，隐私即为数据所有者不愿意被披露的敏感信息，包括敏感数据以及数据所表征的特性。通常我们所说的隐私都指敏感数据，如个人的薪资、病人的患病记录、公司的财务信息等。但当针对不同的数据以及数据所有者时，隐私的定义也会存在差别的。例如保守的病人会视疾病信息为隐私，而开放的病人却不视之为隐私。隐私保护应用场景大数据隐私的相关案例1某零售商通过销售记录分析，比家长更早知道女儿已经怀孕的事实，并向其寄送相关广告信息。2通过分析twitter，了解用户的政治倾向、消费习惯、喜好等个人信息。3AOL公司曾公布了一份用户搜索历史记录，其中的用户标识经过匿名处理，但是，其中某些记录项还是可以精确定位到某个个人。纽约时报公布其识别的一个寡妇，养了三条狗，患有某种疾病。为了便于介绍各种隐私保护方法，把用户的属性信息分为三种类型，分别为：（1）显性标识符，是指能够唯一标识个体身份的属性，如用户身份证号码，姓名等。在隐私保护处理中，这类数据需要删除掉。（2）准标识符，这些信息虽然不包含个人身份信息，但是可能被攻击者利用来与其他外部数据表进行连接，从而可能从外部数据表获得用户的显性标识符。准标识符主要有生日、身高、体重、学历等。（3）敏感属性，是包含个体隐私信息的属性，如收入水平、身体状况、社会关系等。隐私度量数据隐私的保护效果是通过攻击者披露隐私的多寡来侧面反映的。隐私安全性是指隐私数据被推理出隐私的风险，这种风险的具体计算方法在隐私保护的不同实现方法中有不同的定义，例如在k-匿名中使用等价类中的个体数量的倒数，即1/k作为度量；而在差分隐私中是通过敏感度来计算的。提纲隐私及度量匿名化及其攻击差分隐私同态加密匿名化是一种较早提出来的隐私保护方法，其基本原则是要求隐私处理后的数据表中，每一条记录都要和其他k-1条记录构成一个等价类。等价类判断是基于准标识符的，当然可以包含敏感属性。当k=2时，采用根据模糊化和泛化操作的匿名化结果。对于k-匿名化，常用的数据修改方法有：模糊化泛化聚类法提纲隐私及度量匿名化及其攻击差分隐私同态加密攻击者具备各种背景知识，使得K-匿名方法难于应对隐私攻击一种场景：早上查询医院流感人数、有病人700人。下午查询医院流感人数，有病人701人。攻击者的背景知识：朋友Alice早上去医院看病。那么就可以推测Alice很大可能去医院看了流感。差分隐私保护避开了对准标识符进行模糊化、泛化的做法，而改为直接对敏感属性值添加噪声。因此，即使攻击者利用准标识符建立与其他数据表的关联，但是由于敏感值无法准确获得，也就实现了隐私保护。相关定义定义1：邻近数据集指只相差一条记录一对数据集。形式化定义为：若对数据集D进行添加、删除或修改一条记录得到D’，那么D与D’是相邻数据集。差分隐私的噪声机制在现实应用场景中，需要根据要保护的隐私数据种类，设计出不同种类的差分隐私保护机制。这些差分隐私保护机制按照其保护的数据查询结果类型可以分为数值型与非数值型。集中式差分：对于数值型数据，Laplace机制比较适合，对于非数值型数据，指数机制比较适合。本地差分：随机响应机制。指数机制：指数机制的基本原理是为每一个可能的查询结果分配一个分数，然后把这个分数转化为输出概率，为所有可能的查询结果分配输出概率，然后每次查询时按照概率输出某个查询结果。指数机制的例子假设数据集D是记录了学生成绩等第，分为A、B、C、D、E五个等级，现在进行一个查询获得成绩最多的等级,对于此查询，可用性函数q(D,r)设置为数据集D中等级r的学生人数，显然该函数Δq=1。指数机制下的选择概率随机响应机制随机响应机制