99-南宁数据中台 数据清洗加工规范 v0.9.docx

99-南宁数据中台 数据清洗加工规范 v0.9.docx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE7

PAGE6

ICS编号

CCS编号

南宁市数据中台技术标准

数据清洗加工规范

Datacleaningandprocessingspecification

(报批稿)

FORMTEXT2021-FORMTEXTxx-FORMTEXTxx发布

FORMTEXT2021-FORMTEXTxx-FORMTEXTxx实施

DB

DB4501/Txxxx-2021

南宁市大数据发展局发布

南宁市大数据发展局发布

目次

TOC\o1-3\h\z\u前言 3

引言 4

数据清洗加工规范 5

1范围 5

2规范性引用文件 5

3术语和定义 5

4缩略语 6

5清洗目的 6

6清洗流程 7

7具体操作 7

7.1定义规则 7

7.2数据抽取 7

7.3数据过滤 8

7.4数据检核 8

7.5错误标识 8

7.6错误处理 9

7.7数据转换 11

7.8结果检核 11

7.9数据加载 12

附录A 13

参考文献 15

前言

本标准按GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》给出的规则起草。

请注意:本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。

本标准由广西壮族自治区南宁市大数据发展局提出并归口。

本标准起草单位:南宁市大数据发展局、南宁市信息网络管理中心、杭州数梦工场科技有限公司、煜象科技(杭州)有限公司。

本标准主要起草人:xxx、xxx、谭波、吕皖如、邵昶游、沈岭、王吉、刘拓、王俊、汪涛、杨欣。

引言

本标准的制定旨在推进南宁数据中台的开发工作,为南宁数据中台的数据开发和服务工作提供指导和依据。

数据清洗加工规范

范围

本标准规定了南宁数据中台的数据采集治理过程中的清洗加工的工作规范。

本标准适用于南宁数据中台的数据清洗加工。

规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T5271.1-2000信息技术词汇第1部份:基本术语

GB/T35295-2017信息技术大数据术语

术语和定义

下列术语和定义适用于本标准。

数据data

信息的可再解释的形式化表示,以适用于通信、解释或处理。

注:可以通过人工或字段手段处理数据。

[GB/T5271.1-2000,定义01.01.02]

数据采集dataacquisition

从数据源中得到原始数据,通过标准化处理并转化为满足未来数据共享与利用需求的过程。

[GB/T36625.3-征求意见稿,定义3.1]

数据清洗加工datacleaningandprocessing参考DB52/T1540.3-2020政务数据第3部分:数据清洗加工规范,3.1数据清洗加工

参考DB52/T1540.3-2020政务数据第3部分:数据清洗加工规范,3.1数据清洗加工

运用一定方法修正识别的数据问题,转化为满足数据质量要求或应用要求的数据的过程。

结构化数据structureddata

一种数据表示形式,按此形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。

[GB/T35295-2017,定义2.2.13]

非结构化数据unstructureddata

不具有预定义模型或未以预定义方式组织的数据。

[GB/T35295-2017,定义2.1.25]

半结构化数据semi-structureddata

具有逻辑上的结构性,但是结构变化很大,不能够简单地用二维表来组织的数据。

例如:XML类型数据、JSON类型数据等。

缩略语

下列缩略语适用于本文件。

ETL:数据的抽取、转换和加载(ExtractTransformLoad)。

清洗目的

数据清洗的目的是为了通过纠正不符合要求的数据来提高数据质量,满足数据质量标准要求。

不符合要求的数据主要有三类:

残缺数据:缺一些记录,或一条记录里缺一些值(空值),或两者都缺。

错误数据:数据没有严格按照规范记录,包括格式内容错误、逻辑错误、不合规等。

重复数据:出现多条相同的记录或多条记录代表同一实体。参考DB52/

参考DB52/T1540.3-2020政务数据第3部分:数据清洗加工规范,6.6.1错误类

文档评论(0)

152****8691 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档