数据清洗基础与实践PPT完整全套教学课件.pptx

数据清洗基础与实践PPT完整全套教学课件.pptx

  1. 1、本文档共95页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第1章数据清洗概述

第2章数据格式类型与编码

第3章电子表格与文本编辑器

第4章基本技术与方法

第5章数据抽取

第6章数据转换和加载

数据清洗概述

主讲:XXX

3数据仓库

正常PPT课件

数据标准化

1数据清洗简介

数据清洗就是对原始数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并使得数据保持精确性、完整性、一致性、有效性及唯一性,还可能涉及数据的分解和重组,最终将原始数据转换为满足数据质量或应用要求的数据。

数据清洗对保持数据的一致和更新起着重要的作用,因此被用于如银行、保险、零售、电信和交通的多个行业。数据清洗主要有三个应用领域:数据仓库(DataWarehouse,DW)、数据库中知识的发现(KnowledgeDiscoveryinDatabase,KDD)和数据质量管理(DataQualityManagement,DQM)。

数据清洗流程包含以下基本步骤:

(1)分析数据并定义清洗规则。

(2)搜寻并标识错误实例。

(3)纠正发现的错误。

(4)干净数据回流。

(5)数据清洗的评判。

本课件是可编辑的正常PPT课件

(1)数据清洗环境,其为进行数据清洗所提供的基本硬件设备和软件系统,特别是已得到广泛应用的开源软件和工具。

(2)终端窗口和命令行界面,比如MacOSX上的Terminal程序或Linux上的bash程序。

(3)适合程序员使用的编辑器,如Mac上的TextWrangler,Linux上的vi或emacs,或是Windows上的Notepad++、Sublime编辑器等。

(4)Python客户端程序,如EnthoughtCanopy。另外,还需要足够的权限来安装一些程序包

文件。

(5)电子表格程序,如MicrosoftExcel和GoogleSpreadsheets。其可用于数据呈现和可视化,

并且以恰当的方式展示数据分析和挖掘的结果。

(6)数据库软件,如MySQL数据库和MicrosoftAccess等。

本课件是可编辑的正常PPT课件

数据标准化规范化(DataStandardization/Normalization)是机构或组织对数据的定义、组织、分类、记录、编码、监督和保护进行标准化的过程,有利于数据的共享和管理,可以节省费用,提高数据使用效率和可用性。

数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,必须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,然后再加总才能得出正确结果。

数据无量纲化处理主要用于消除变量间的量纲关系,解决数据评价分析中数据的可比性。例如,多指标综合评价方法需要把描述评价对象不同方面的多个信息综合起来得到一个综合指标,由此对评价对象做整体评判,并进行横向或纵向比较。

本课件是可编辑的正常PPT课件

(1)max-min标准化

对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过max-min标准化映射成在区间[0,1]中的值x,其公式为:x=(x-minA)/(maxA-minA)。

(2)z-score标准化

基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化,将A的原始

值x标准化到x,其公式为:x¹=(x-mean)/standarddeviation。

(3)Decimalscaling标准化

通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x到x的计算方法公式为:x¹=x/(10^j)。其中,j是满足条件的最小整数。

(4)其他标准化方法

还有一些标准化方法的做法是将原始数据除以某一值,如将原始数据除以行或列的和,称总和标准化。如果原始数据除以每行或每列中的最大值,叫做最大值标准化。如果原始数据除以行或列的和的平方根,则称为模标准化(ne课俾是古编辑的业常P个课件

数据仓库(DataWarehouse,DW)是基于信息系统业务发展需要,基于传统数据库系统技术发展形成能够并逐步独立出来的一系列新的应用技术,目标是通过提供全面、大量的数据存储来有效支持高层决策分析。

典型数据仓库的基本组成要素包括:

(1)源数据单元

(2)数据准

您可能关注的文档

文档评论(0)

chenzehao888 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档