数据准备 课件.pdfVIP

  1. 1、本文档共74页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第三章数据准备

【学习目标】

•理解数据准备工作的步骤;

•了解数据的不同类型;

•理解数据处理的主要方法。

3.1数据准备的基本知识

数据的问题

•1.数据的不完全性:数据缺少特征或者包含缺失值;

•2.数据噪声:数据包含错误的记录或者异常值;

•3.数据不一致性:数据包含冲突的记录或者差异。

哪种问题影响分析

•1.非法值:一些数据集包含一些明显的值:例如性别只能是男或女,上面的例子很容易发现错误。

•2.格式:最常见的问题。可能获得不同格式的值比如名字写成:“姓名,xxx”或者“xxx姓名”。

•3.特征依赖:一个特征的值依赖于另一个特征。例如:如果我们有一些学校数据,学生的数量与

这个人是否是教师有关。如果某个人不是教师,他不可能有一些学生。

•4.唯一性:很可能发现只允许唯一值得数据重复。例如:我们的两个产品不能有两个身份ID。

•5.缺失值:数据集的一些特征的值可能是空白或者缺失的。

•6.拼写错误:主要指英文等字符串拼写的错误。

•7.错位值:一个特征的值包含另一个特征。

数据准备

3.2数据类型及处理方式

•数据(data),是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事

物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据。

也可以是离散的,如符号、文字,称为数字数据。

•数据分析的基础是数据分类,不同类型的数据有不同的处理方式。数据分类就是把

具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进

行区别。换句话说,就是相同内容、相同性质的信息以及要求统一管理的信息集合

在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关

系,形成一个有条理的分类系统

一.统计计量角度的数据类型

测定层次特征运算功能举例

定类测定分类频数和频率产业分类

定序测定分类、排序计数、排序企业等级

定距测定分类、排序、有基本测量单位计数、排序、加减产品质量

差异

定比测定分类、排序、有基本测量单位、有计数、排序、加减、商品销售额

绝对零点乘除

1.定类数据

•定类就是将给数据定义一个类别。这种数据类型将所研究的对象分类,也即只能决

定研究对象是同类或不同类。例如把性别分成男女两类;把动物分成哺乳类和爬行

类等等。

•定类变量遵循两个原则:

•(1)类与类之间互斥,不存在即是男又是女的性别;

•(2)每个对象都必须要有类别,就像动物按照域(Domain)、界(Kingdom)、门

(Phylum)、纲(Class)、目(Order)、科(Family)、属(Genus)、种

(Species)加以分类。

2.定序数据

•定序数据是将同一个类别下的对象分一个次序,即变量的值能把研究对象排列高低

或大小,具有>与<的数学特质。它是比定类变量层次更高的变量,因此也具有定

类变量的特质,即区分类别(=,≠)。例如文化程度可以分为大学、高中、初中、

小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。这些变量

的值,既可以区分异同,也可以区别研究对象的高低或大小。

•各个定序变量的值之间没有确切的间隔距离。比如大学究竟比高中高出多少,大学

与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测

量的。定序变量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它

们的顺序,而不能反映出大于或小于的数量或距离。

3.定距数据

•定距数据是区别同一类别下个案中等级次序及其距离的变量。它除了包括定序变量

的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加

文档评论(0)

爱因斯坦 + 关注
实名认证
文档贡献者

我爱达芬奇

1亿VIP精品文档

相关文档