机器学习-无监督学习2.pdfVIP

  1. 1、本文档共85页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1 机器学习-无监督学习-2 项德良 xiangdeliang@buct.edu.cn 2022年11月 硬聚类和软聚类 2 如果一个聚类方法假定一个样本只能属于一个类 ,或类的交集为空集 ,那么该方法 称为硬聚类 (hard clustering)方法。否则 ,如果一个样本可以属于多个类 ,或类的 交集不为空集 ,那么该方法称为软聚类 (soft clustering)方法。 K-Means 是通过距离来区分样本之间的差别的,且每个样本在计算的时候只能属于 一个分类 ,称之为是硬聚类算法。 EM 聚类在求解的过程中,实际上每个样本都有一定的概率和每个聚类相关 ,叫做软 聚类算法。 常用的 EM 聚类有 GMM 高斯混合模型和 HMM 隐马尔科夫模型。GMM (高斯混合 模型)聚类就是 EM 聚类的一种。 硬聚类和软聚类 3 EM是计算概率 ,KMeans是计算距离。计算概率 ,概率只要不为0 ,都有可能即样 本是每一个类别都有可能。计算距离 ,只有近的才有可能得票高 ,即样本只能属于 一个类别。 什么是EM算法 4 1.EM算法概述 5 01 EM算法概述 02 预备知识 03 EM算法详解 1.EM算法概述 6 EM算法 ,期望最大化 (expectation maximization)算法 ,在概率模型中寻找参数 最大似然估计或者最大后验估计的迭代计算方法 ,其中概率模型依赖于无法观测的 隐性变量 。常应用于处理含有无法观测 的隐藏变量的不完全数据 (incomplete data)问题。 1.EM算法概述 7 EM算法经过两个步骤交替进行计算 : 1. 第一步是计算期望 (E),利用对隐藏变量的现有估计值 ,计算其最大似然估计值 ; 2. 第二步是最大化 (M),最大化在E步上求得的最大似然值来计算参数的值。M步上 找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。 你懂了么?十有八九你没懂。因为你可能不懂什么是最大似然估计?而想了解最大似然 估计 ,又得先从似然函数开始。但什么又是似然函数? 在数理统计学中,似然函数是一种关于统计模型中的参数的函数 ,表示模型参数中的似 然性。 “似然性”与 “或然性”或 “概率”意思相近 ,都是指某种事件发生的可能性。 而极大似然就相当于最大可能的意思。 1.EM算法概述 8 思考 • 这个算法要解决什么样的问题? • 已知部分相关变量指的是什么 ,未知变量是哪些? • 求解过程中为什么需要进行迭代? • 迭代过程的关键是什么? • 从数学的角度来看 ,EM算法是如何推演的? 什么是隐变量? 1.EM算法概述 9 在重复抛硬币实验中,如果知道硬币抛出正面的概率p,就可以计算n次试验结果中 E np 抛出正面的期望 。 反之 ,如果知道实验结果X ,也可以估计出最可能的p的取 值 ,称为似然估计(Likelihood Estimation) ,其中最好的估计称为极大似然估计 (Maximum Likelihood Estimation, 简称MLE)。 对于图中的两个不同颜色的小人 ,我们按照颜色称之 为小蓝和小绿。小蓝知道硬币的正反面概率分布 ,根 据该分布可以计算 出实验结果序列的期望E。如果硬 币正面概率是0.7 ,意味着能够计算出每种不同的序列 的概率 ,从而得到总体概率最大的序列结果。 小绿知道实际的试验结果 ,可以对硬币的分布进行极 大似然估计。比如小绿估算出的p

文档评论(0)

188****0670 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档