数据挖掘05数据立方体.pptVIP

下载本文档

0
0
约 47页
2017-05-30 发布于北京
举报
版权申诉

数据挖掘05数据立方体.ppt

1、本文档共47页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向属性的归纳——示例主泛化关系初始工作关系面向属性的归纳算法输入 1. DB; 2. 数据挖掘查询DMQuery; 3. 属性列表; 4. 属性的概念分层; 5. 属性的泛化阈值；输出主泛化关系P 算法描述： W get_task_relevant_data(DMQuery, DB) prepare_for_generalization(W) 扫描W，收集每个属性a的不同值对每个属性a，根据阈值确定是否删除，如果不删除，则计算其最小期望层次L，并确定映射对(v,v`) P generalization(W) 通过使用v`代替W中每个v，累计计数并计算所有聚集值，导出P 每个泛化元组的插入或累积计数用数组表示P 导出泛化的表示 (1) 泛化关系一部分或者所有属性得到泛化的关系，包含计数或其他度量值的聚集交叉表二维交叉表使用每行显示一个属性，使用每列显示另外一个属性将结果集映射到表中可视化工具：条形图、饼图、曲线和数据立方体浏览工具（用单元的大小代表计数，用单元亮度代表另外的度量）导出泛化的表示 (2) 量化规则使用t_weight表示主泛化关系中每个元组的典型性量化特征规则将泛化的结果映射到相应的量化特征规则中，比如：量化特征规则中每个析取代表一个条件，一般，这些条件的析取形成目标类的必要条件，因为该条件是根据目标类的所有情况导出的。也就是说，目标类的所有元组必须满足该条件。然而，该规则可能不是目标类的充分条件，因为满足同一条件的元组可能属于其他类。 E.g. 挖掘类比较：区分不同的类类比较挖掘的目标是得到将目标类与对比类相区分的描述。目标类和对比类间必须具有可比性，即两者间要有相似的属性或维。本科生 VS. 研究生；student VS. address 很多应用于类特征化的技巧（处理单个类的多层数据的汇总和特征化）可以应用于类比较，比如属性泛化属性泛化必须在所有比较类上同步进行，将属性泛化到同一抽象层后进行比较。 E.g. City VS country 类比较的过程数据收集通过查询处理收集数据库中相关的数据，并将其划分为一个目标类和一个或多个对比类维相关分析如果存在较多的维，则应当对这些类进行维相关分析，仅选择高度相关的维进行进一步分析。（可以使用基于熵的度量）同步泛化同步的在目标类和对比类上进行泛化，泛化到维阈值控制的层，得到主目标类关系/方体和主对比类关系/方体导出比较的表示用可视化技术表达类比较描述，通常会包含“对比”度量，反映目标类与对比类间的比较 (e.g count%) 类比较挖掘——示例（1）任务挖掘描述BigUniversity本科生和研究生的类比较任务的DMQL描述 use Big_University_DB mine comparison as “grad_vs_undergrad_students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa for “graduate_students” where status in “graduate” versus “undergraduate_students” where status in “undergraduate” analyze count% from student 类比较挖掘——示例（2）进行类比较挖掘的输入：给定的属性：name, gender, major, birth_place, birth_date, residence, phone# and gpa 在属性ai上定义的概念分层 Gen(ai) 在属性ai上定义的属性分析阈值 Ui 在属性ai上定义的属性泛化阈值Ti 属性相关性阈值R 类比较挖掘——示例（3）任务的处理过程数据收集 DMQL查询转化为关系查询，得到初始目标类工作关系和初始对比类工作关系可以看成使构造数据立方体的过程引入一个新维status来标志目标类和对比类（graduate, undergraduate）其他属性形成剩余的维在两个数据类上进行维相关分析删除不相关或者使弱相关的维：name, gender, major, phone# 类比较挖掘——示例（4）同步泛化在目标类和对比类上同步的进行泛化，将相关的维泛化到由维阈值控制的层，形成主目标类关系/方体和主对比类关系/方体导出比较的表示用表、图或规则等形式表达类比较描述的挖掘结果用户应该能够在主目标类关系/方体和主对比类关系/方体进行进一步的OLAP操作类比较挖掘——示例（5）目标类的主泛化关系: 研究生