- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2.提高数据质量,提高挖掘结果的质量
3.使挖掘过程更有效、更容易
⚫如何预处理数据
1.一般的预处理方法
数据清理、数据集成和变换、数据归约
2.用于一些具体的web挖掘中的方法
使用预处理:数据净化、用户识别、会话识别、帧
页面识别、路径补缺、事务识别等
结构预处理:站点拓扑
内容预处理:页面信息抽取、信息特征定
义
I.一般的预处理方法
❖数据清理
:现实世界的数据一般是脏的、不完整和不一致的。
功能:填充空缺值、识别孤立点、消除噪声、纠正数据
不一致。
具体实现:
❑空缺值
1.忽略元组:除非元组有多个属性缺少值,否则该方法不是很
有效。
2.人工填写空缺值:费时,数据集大时可能行不通
3.使用一个全局常量填充空缺值:如Unknow或-∞
4.使用属性的平均值填充空缺值
5.使用与给定元组属同一类的所有样本的平均值
6.使用最有可能的值填充空缺值:利用回归、判定树归纳等方式
确定
❑噪声数据
噪声是一个测量变量中的随机错误或偏差
噪声平滑技术:
1.分箱:例:原始数据为4,8,15,21,21,24,25,28,34
划分为(等深的)箱
箱14815
箱2212124
箱3252834
用箱的平均值平滑
箱1999
划分为(等深的)箱箱2222222
箱3292929
箱14815
箱2212124用箱边界平滑
箱3252834箱14415
箱2212124
箱3252534
2.聚类:将类似的值组织成群或“聚类”,落在聚类集
合外的点被视为孤立点
3.计算机和人工检查结合:计算机根据信息度量理论等
进行初次筛选,将筛选结果交由人来复查
4.回归:通过让数据适合一个函数(如回归函数)来平
滑数据
❑不一致数据
对于有些记录的数据可能存在不一致。有
些数据不一致可以使用其他材料人工地更正。知识工程
工具也可以用来检测限制的数据。例如,知道属性
的函数依赖,可以查找函数依赖的值。
❖数据集成
功能:将来自不同数据源的数据整合成一致的数据。
元数据、相关分析、数据检测和语义异种性的解
析都有助于数据集成。
问题和解
文档评论(0)