2-7-04-05-02-02数据聚类分析课件.2-7-04-05-02-02数据聚类分析课件.ppt

下载文档

0
0
约2.36千字
约 14页
2024-03-04 发布于陕西
举报
版权申诉
保障服务

2-7-04-05-02-02数据聚类分析课件.2-7-04-05-02-02数据聚类分析课件.ppt

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据技术创新应用冷链物流技术与管理资源库山东交通职业学院主讲教师：李海民

大数据概述01大数据采集和预处理02大数据存储与管理03大数据捕捉04大数据分析与计算05大数据可视化06大数据应用07目录Contents

05大数据分析与计算1.大数据分析2.大数据挖掘3.大数据处理系统

5.2大数据挖掘01数据关联分析02数据聚类分析03数据分类与预测

5.2.2数据聚类分析聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类不做预测，它与分类的根本区别在于：分类需知道所根据的特征，而聚类是要准确地找到这个数据特征。聚类分析可以作为一个获得数据分布情况、观察每个簇的特征和对特定类进一步分析的独立工具。通过聚类能够了解密集和稀疏的区域，找到全局的分布模式以及数据的两个属性之间的互相联系等。聚类分析的基本概念

5.2.2数据聚类分析聚类分析的潜在应用提出了许多特殊的要求，主要表现在：可伸缩性：由于数据产生和收集技术的进步，大数据集越来越普遍。在大数据集合样本上进行聚类可能会导致有偏差的结果。一般而言，聚类算法的时间复杂度太高，这要求在多项式的时间内完成，所以像这样算法的可伸缩性会更好。处理不同类型数据的能力：已有许多算法可用于聚类数值类型的数据，但某些应用可能需要聚类其他类型的数据，如二元类型、分类/标称类型、序数型数据，或者这些数据类型的混合。用于决定输入参数的领域知识最小化：许多聚类算法在聚类分析中要求用户输入一定的参数，例如希望产生簇的数目。聚类结果对于输入参数十分敏感。参数通常很难确定，特别是对于包含高维对象的数据集来说。这样不仅加重了用户的负担，也使得聚类的质量难以控制。聚类分析的基本概念

5.2.2数据聚类分析处理“噪声”数据的能力：在现实应用的绝大多数数据都可能包含有噪声数据，例如：孤立点、未知数据、空缺或者错误数据等。对于输入记录的顺序不敏感：对输入数据的顺序敏感的算法对于同一个数据集，当以不同的顺序提交给算法时，得到的结果可能差别很大。研究与数据输入顺序不敏感的算法具有重要的意义。聚类高维度数据的能力：一个数据库或者数据仓库可能包含若干维或者属性。许多聚类算法擅长处理低维的数据，可能只涉及两到三维。人类的眼睛在最多三维的情况下能够很好地判断聚类的质量。在高维空间中聚类数据对象是非常有挑战性的，特别是考虑到这样的数据可能分布非常稀疏，而且高度偏斜。聚类分析的基本概念

5.2.2数据聚类分析基于约束的聚类：现实世界的应用可能需要在各种约束条件下进行聚类。要找到既满足特定的约束，又具有良好聚类特性的数据分组是一项具有挑战性的任务。假设你的工作是在一个城市中为给定数目的自动提款机选择安放位置，为了做出决定，可以对住宅区进行聚类，同时考虑如城市的河流和公路网、每个地区的客户要求等情况。可解释性和可用性：用户希望聚类结果是可用的、可理解的和可解释的。也就是说，聚类分析极有可能需要和特定的语义解释和应用联系起来。而且应用目标如何影响聚类方法的选择也是一个重要的研究课题。聚类分析的基本概念

5.2.2数据聚类分析聚类算法可以分为5类：基于划分的、基于层次的、基于网格的、基于模型的和基于密度的。1.基于划分的聚类（partitioningmethods）给定一个由n个对象组成的数据集合，对此数据集合构建k个划分（k<=n）,每个划分代表一个簇，即将数据集合分成多个簇的算法。每个簇至少有一个对象，每个对象必须仅且属于一个簇。具体算法包括：K-均值和K-中心点算法等。聚类算法的分类1.基于划分的聚类（partitioningmethods）

5.2.2数据聚类分析这种方法对给定的数据集进行层层分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如：在“自底向上”方案中，初始时每个数据点组成一个单独的组，在接下来的迭代中，按一定的距离度量将相互邻近的组合并成一个组，直至所有的记录组成一个分组或者满足某个条件为止。代表算法有：BIRCH，CURE，CHAMELEON等。聚类算法的分类2.基于层次的聚类（hierarchicalclustering）

5.2.2数据聚类分析只要某簇邻近区域的密度超过设定的某一阈值，则扩大簇的范围，继续聚类，也就是说，对给定类中的每个数据点，在一个给定范围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤“噪声”孤立点数据，发现任意形状的聚类。典型算法：DBSCAN、OPTICS和DENCLUE。聚类算法的分类3.基于密度的聚类（Density-BasedClustering）

5.2.2数据聚类分析将问题空间化为有限数目的单元，形成一个空间网格结构，随后聚类在这些网格之间进行。算法速度较快，其处理时间