数据脱敏分析和总结.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据脱敏 数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据 的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真 实数据集。 可以看到数据脱敏具有几个关键点:敏感数据、脱敏规则、使用环境。 敏感数据,又称隐私数据,常见的敏感数据有: 姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类 ( 如账户查询密码、取款密码、登录密码等 )、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。 随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的巨大商业 价值被逐步挖掘出来,但是同时也带来了巨大的挑战–个人隐私信息 的保护。个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等,这些都是人的隐私,也是我们所关 注的一类敏感信息,在大数据价值挖掘的基础上如 何保护人的隐私信息,也将是数据脱敏必须解决的难题。 脱敏规则,一般的脱敏规则分类为可恢复与不可恢复两类。 可恢复类,指脱敏后的数据可以通过一定的方式,可以恢复成原来的敏感数据,此类脱敏规则主要指各类加解密算法规则。 不可恢复类,指脱敏后的数据被脱敏的部分使用任何方式都不能恢复出。一般可分为替换算法和生成算法两大类。替换算法即将需要脱敏的部分使用定义好的字符或字符串替换, 生成类算法则更复杂一些,要求脱敏后的数据符合逻辑规则,即是“看起来很真实的假数 据”。 使用环境,主要指脱敏之后的数据在哪些环境中使用。普遍按照生产环境和非生产环境 (开发、测试、外包、数据分析等)进行划分。 在最近一期的Gartner 关于数据脱敏的报告(Magic Quadrant for Data Masking Technology-2014 年 12 月)中根据数据脱敏产品应用场景的将数据脱敏划分为静态数据脱敏(static data masking[SDM])和动态数据脱敏(dynamic data masking[DDM])。 静态数据脱敏(SDM )与动态数据脱敏(DDM )主要的区别是:是否在使用敏感数据当时进行脱敏。 静态数据脱敏(SDM )一般用在非生产环境,在敏感数据从生产环境脱敏完毕之后再在非生产环境使用,一般用于解决测试、开发库需要生产库的数据量与数据间的关联,以排查问题或进行数据分析等,但又不能将敏感数据存储于非生产环境的问题。 动态数据脱敏(DDM )一般用在生产环境,在访问敏感数据当时进行脱敏,一般 用来解决在生产环境需要根据不同情况对同一敏感数据读取时需要进行不同级别脱敏的问题。 隐私数据脱敏技术 通常在大数据平台中,数据以结构化的格式存储,每个表有诸多行组成,每行数据有诸多列组成。根据列的数据属性,数据列通常可以分为以下几种类型: 可确切定位某个人的列,称为可识别列,如身份证号,地址以及姓名等。 单列并不能定位个人,但是多列信息可用来潜在的识别某个人,这些列被称为半识别列, 如邮编号,生日及性别等。美国的一份研究论文称,仅使用邮编号,生日和性别信息即可识别 87%的美国人[3]。 包含用户敏感信息的列,如交易数额,疾病以及收入等。其他不包含用户敏感信息的列。 所谓避免隐私数据泄露,是指避免使用数据的人员(数据分析师,BI 工程师等)将某行数据识别为某个人的信息。数据脱敏技术通过对数据进行脱敏,如移除识别列,转换半识别 列等方式,使得数据使用人员在保证可对#2(转换后)半识别列,#3 敏感信息列以及# 4 其他列进行数据分析的基础上,在一定程度上保证其无法根据数据反识别用户,达到保证数据安全与最大化挖掘数据价值的平衡。 隐私数据泄露类型 隐私数据泄露可以分为多种类型,根据不同的类型,通常可以采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险,以及对应不同的数据脱敏算法对数据进行脱敏。一般来说,隐私数据泄露类型包括: 个人标识泄露。当数据使用人员通过任何方式确认数据表中某条数据属于某个人时,称为个人标识泄露。个人标识泄露最为严重,因为一旦发生个人标识泄露,数据使用人员就可以得到具体个人的敏感信息。 属性泄露,当数据使用人员根据其访问的数据表了解到某个人新的属性信息时,称为属性泄露。个人标识泄露肯定会导致属性泄露,但属性泄露也有可能单独发生。 成员关系泄露。当数据使用人员可以确认某个人的数据存在于数据表中时,称为成员关系泄露。成员关系泄露相对风险较小,个人标识泄露与属性泄露肯定意味着成员关系泄露, 但成员关系泄露也有可能单独发生。 隐私数据泄露风险模型 将数据开放给数据分析人员,同时就引入了隐私数据泄露的风险。在限制隐私数据泄露风险在一定范围内的同时,最大

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地上海
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档