数据处理统计分析预处理.pdf

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

2.提高数据质量,提高挖掘结果的质量

3.使挖掘过程更有效、更容易

⚫如何预处理数据

1.一般的预处理方法

数据清理、数据集成和变换、数据归约

2.用于一些具体的web挖掘中的方法

使用预处理:数据净化、用户识别、会话识别、帧

页面识别、路径补缺、事务识别等

结构预处理:站点拓扑

内容预处理:页面信息抽取、信息特征定

I.一般的预处理方法

❖数据清理

:现实世界的数据一般是脏的、不完整和不一致的。

功能:填充空缺值、识别孤立点、消除噪声、纠正数据

不一致。

具体实现:

❑空缺值

1.忽略元组:除非元组有多个属性缺少值,否则该方法不是很

有效。

2.人工填写空缺值:费时,数据集大时可能行不通

3.使用一个全局常量填充空缺值:如Unknow或-∞

4.使用属性的平均值填充空缺值

5.使用与给定元组属同一类的所有样本的平均值

6.使用最有可能的值填充空缺值:利用回归、判定树归纳等方式

确定

❑噪声数据

噪声是一个测量变量中的随机错误或偏差

噪声平滑技术:

1.分箱:例:原始数据为4,8,15,21,21,24,25,28,34

划分为(等深的)箱

箱14815

箱2212124

箱3252834

用箱的平均值平滑

箱1999

划分为(等深的)箱箱2222222

箱3292929

箱14815

箱2212124用箱边界平滑

箱3252834箱14415

箱2212124

箱3252534

2.聚类:将类似的值组织成群或“聚类”,落在聚类集

合外的点被视为孤立点

3.计算机和人工检查结合:计算机根据信息度量理论等

进行初次筛选,将筛选结果交由人来复查

4.回归:通过让数据适合一个函数(如回归函数)来平

滑数据

❑不一致数据

对于有些记录的数据可能存在不一致。有

些数据不一致可以使用其他材料人工地更正。知识工程

工具也可以用来检测限制的数据。例如,知道属性

的函数依赖,可以查找函数依赖的值。

❖数据集成

功能:将来自不同数据源的数据整合成一致的数据。

元数据、相关分析、数据检测和语义异种性的解

析都有助于数据集成。

问题和解

文档评论(0)

ericxiao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档