公共数据 数据治理规范 第2部分:数据清洗比对编制.docx

公共数据 数据治理规范 第2部分:数据清洗比对编制.docx

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1

《公共数据数据治理规范第2部分:数据清洗比对》地方标准编制说明

一、工作简况

(一)任务来源

2020年7月30日,山东省市场监督管理局印发《2020年度地方标准制(修)订计划项目》的通知(鲁市监标字〔2020〕249号),本标准列为推荐性地方标准,计划编号:2020年度地方标准制(修)订计划项目—159。本文件由山

东省大数据局提出并归口。

(二)起草单位、起草人及任务分工

本标准的起草单位为山东省大数据局、山东省大数据中心、山东新一代标准化研究院有限公司、山东省计算中心(国家超级计算济南中心)、江苏数兑科技有限公司、山东省新型智慧城市大数据工程技术研究院、中国标准化研究院、山

东省标准化研究院。

本标准的主要起草人为杨峰、张昭、李晓彤、郭雨晴、史丛丛、毛杰、马传玺、谷蕾、于璐、关新雨、石俊龙、王伟、石伟、曾振、钱恒、刘佳佳、李杨、林锋、王溪、张媛、

邹丰义、郑祎、许潇文、相吉利、王亚楠。

起草人任务分工:杨峰、张昭、李晓彤、郭雨晴负责标

准总体设计、技术把关工作,史丛丛、毛杰、马传玺、谷蕾

2

负责标准资料调研、汇总等工作,关新雨、于璐、石俊龙、王伟、石伟负责技术资料分析、标准框架搭建等工作,曾振、钱恒、刘佳佳负责标准内容起草、征求意见及修改、专家研讨及意见修改、送审材料编写等工作,李杨、林锋、王溪、张媛、邹丰义、郑祎、许潇文、相吉利、王亚楠等负责参与

标准各阶段的技术讨论、标准的试验论证等工作。

(三)起草过程

1.调查研究阶段(2020年12月-2021年3月)

标准编写组启动标准调研工作,对政务信息资源数据治理相关的标准和政策文件进行收集、研究,重点搜集数据清洗比对相关的国家标准、行业标准、地方标准等资料。召开多次内部讨论会,充分借鉴国家和各省市公共数据清洗比对提供的经验做法,并结合我省公共数据清洗比对实际工作情况,研究分析山东省一体化大数据平台、公共管理和服务机构数据清洗比对的方法、要求等,确定了标准范围,并为标

准框架和内容整理编制思路。

2.标准起草阶段(2021年4月-2021年5月)

根据前期文件调研以及本系列标准制定情况,为进一步发挥本标准对山东省数据治理工作规范化开展的保障作用,参考已发布系列国家标准GB/T34960《信息技术服务治理》,经讨论论证,该系列标准名称由《政务信息资源数据》改为《政务信息资源数据治理规范》。标准编写组根据收

集的资料和分析结论,同时充分借鉴、吸收国家和其他各省

3

在数据治理中数据清洗比对的经验和做法,深入调研我省数据清洗比对的现状,搭建标准框架,确定标准框架和主要技术内容,编写形成标准草案。针对数据清洗比对的标准名称,数据清洗比对方式和方法,包括缺失值补充方式、违规值处理方法等相关内容,标准编写组先后组织召开了多次多方共同参与的内部研讨会,对标准适用性、标准技术内容等开展研讨,根据研讨意见对标准草案多轮次迭代优化,形成征求

意见稿初稿。

3.征求意见阶段(2021年6月-2021年8月)

2021年6月以来,标准编写组多次召开内部研讨会议,并多次讨论征求意见稿初稿,对数据质量检查规则、问题数据修正方法等相关问题进行研讨,主要包括缺失值删除条件、缺失值补充流程、回归分析拟合函数等技术问题,标准编写组按照要求对标准草案进行了修改完善并形成征求意见稿。面向25个省直部门,16个地市广泛征求意见,收到15个省直部门,13个地市的征求意见回函,回函并有建议或意见的单位数6个。本标准一共收取13条意见,采纳10条,部分采纳3条,其中对部分采纳意见进行了详细的解释

说明。主要意见和意见处理如下:

(1)目前标准中只给出了数据清洗的方法,内容较为理论,缺少相关示例。标准编写组与相关技术团队对接并补充部分数据清洗方法对应的示例,比如在违规值处理的删除

记录方法中,给出相关示例以便助于理解:因编码错误导致

4

行驶证中车牌号数据存在大量“00000”时可删除记录;

(2)缺少问题数据反馈处理的数据治理闭环、与数据归集标准关联关系的系列标准内部闭环。标准编写组多次内部研讨沟通确认,增加第4章概述章节,在概述中给出归集至山东省一体化大数据平台的数据的清洗比对工作流程、数

据清洗比对工作与数据归集工作之间的闭环关系;

(3)数据平滑方法中新增加回归分析,以便数值型数据使用回归分析方法来光滑数据。标准编写组多次与技术团队沟通确认,补充了通过回归函数拟合数据,光滑违规值的内容描述和示例,例如幼儿园儿童入学年龄数据中,有一条数据为18岁,其他人为5-8岁,可将儿童按年龄分组,使用回归相关算法,计算各年龄人数,将其修改为曲线中最平

滑的数值。

标准编写组根据征求意见情况作了认

文档评论(0)

std365 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档