- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于扩展容差关系的不完备信息系统属性约简.doc
基于扩展容差关系的不完备信息系统属性约简
摘 要:针对当前的邻域粗糙集多用于处理完备的信息系统, 而非不完备的信息系统这一问题, 提出了一种可用于处理不完备混合信息系统的扩展容差关系, 并给出相关定义, 使用容差完备度和邻域阈值作为限制条件计算扩展容差邻域, 以此邻域为基础选择决策正域得到系统的属性重要性, 并以该重要性作为启发因子给出基于扩展容差关系的属性约简算法。采用UCI数据集中的7组不同类型的数据集进行仿真实验, 并分别与扩展邻域关系(EN)、容差邻域熵(TRE)、邻域粗糙集(NR)的方法进行比较, 实验结果表明, 该方法在保证分类精度的同时能够约简得到更少的属性。最后讨论了在扩展容差关系中改变邻域阈值对分类精度产生的影响。
关键词:邻域粗糙集;不完备信息;属性约简;属性重要性;邻域阈值
中图分类号:TP181
文献标志码:A
文章编号:1001-9081(2016)11-2958-05
0 引言
在许多实际的应用领域中, 求解问题时能够利用的知识往往是带有不确定性的, 20世纪80年代初波兰数学家Pawlak教授提出了粗糙集理论(Rough Set Thoery)[1], 它能够定量分析处理不精确、不一致、不完整信息与知识, 该理论的提出, 为处理不确定性的问题[2-3]提供了一种有效的工具。但是经典的粗糙集只适合处理名义型数据, 而在现实中的领域, 如市场分析、故障诊断、天气预测和投资决策等, 存在数值型数据的情况是非常普遍的, 而使用离散化的方法处理数值型数据往往会丢失重要信息。邻域粗糙集(Neighborhood Rough set, NR)[4-5]以邻域粒化的方式近似逼近论域空间中的任一概念,直接处理数值型数据, 从而避免了离散化给信息带来的损失。但是邻域粗糙集多用于处理完备的信息系统, 而实际的信息系统大多是不完备的, 因此, 寻求一种能够处理不完备信息系统的方法也是近年来的研究热点[6-7]。
关于不完备的信息系统, 传统的ROUSTIDA数据补齐算法[8]对系统进行完备化处理, 使用数据补全来填补信息系统中遗失的数据, 但这种做法会使原信息系统产生变化, 从而不能反映原始信息系统的真实情况。因此, 本文旨在寻求一种在不改变信息系统的前提下直接进行数据处理的方法, Kryszkiewicz[9]提出了容差关系, Stefabowski等[10]和盛立等[11]也提出了用来扩充不完备信息系统的粗糙集模型, 这些关系模型都具有元素相似性的特点, 利用元素相似性进行样本归类, 而粗糙集理论正是利用等价关系对不确定关系进行划分, 因此它们能做到与粗糙集理论有效的结合。很多学者也提出了其他处理不完备信息系统的方法:文献[12]使用确定特征优势关系的概念, 将近似分布约简引入到广义不完备序值信息系统中, 并提出分布约简概念和方法;文献[13]将容差关系与粗糙集相结合, 定义了容差关系下的可辨识矩阵, 并运用该方法得到了不完备信息系统下的一种约简算法;文献[14]以非对称相似关系为基础, 将不同的约简形式引入到不完备信息系统中, 为知识获取提供了新的理论方法和解决手段。但是这些方法只能处理名义型的属性, 却不能处理数值型属性。文献[15]提出了一种新颖的处理不完备信息系统的方法, 它将超图模型应用于邻域粗糙集, 并训练得到一种较好的分类器;文献[16]将邻域粗糙集与容差关系相结合, 用容差邻域条件熵的结果评价系统的约简和分类性能。但这种方法没有考虑信息完备度对不完备信息系统产生的影响, 本文针对不完备信息系统提出一种可以同时处理名义型属性和数值型属性的扩展容差关系, 使用容差完备度弥补了上述方法中的不足, 利用扩展容差关系得到属性的重要性, 并以此重要性为启发因子设计了基于扩展容差关系的混合信息系统的属性约简算法。最后通过实验, 验证了该算法的有效性。
4 实验分析
本文从UCI数据集中选取了7组不同类型数据进行实验, 在这些数据集中, 有2个是完备的, 5个是不完备的, 其中有4个完全是连续型属性, 2个是混合型属性, 1个完全是名义型属性。为了得到精确的数据处理结果, 消除数据在数量级上差异, 在数据处理之前需要进行归一化处理, 将数值型属性转化到[0,1]内。本文将基于扩展容差关系的属性约简算法的实验结果分别与邻域粗糙集(Neighborhood Rough set, NR)[5]、容差邻域熵 (Tolerance Neighborhood Entropy, TRE)[16]和扩展邻域关系(Extension Neighborhood relation, EN)[17]三种算法的实验结果进行比较, 其中EN和TRE是具有容差能力的算法, NR是
文档评论(0)