分类其他技术.ppt

  1. 1、本文档共134页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SVM(续) 使用Karuch-Kuhn-Tucher(KKT)条件: ?i ≥ 0 ?i [yi(wxi + b) ? 1] = 0 (5.42) 除非训练实例满足方程yi(wxi + b) = 1, 否则拉格朗日乘子?i必须为零 ?i 0的训练实例位于超平面bi1或bi2上,称为支持向量 (5.39)和(5.40)代入到公式(5.38)中 这是Lp的对偶问题(最大化问题 ). 可以使用数值计算技术, 如二次规划来求解 (5-43) * * 数据挖掘:概念与技术 第九十四页,共一百三十四页,2022年,8月28日 使用BBN进行推理举例 E: 锻炼, D: 饮食, HD: 心脏病, Hb: 胸口痛, BP: 血压, CP: 胸痛 锻炼 饮食 心口痛 心脏病 血压 胸痛 D=健康 D=健康 D=不健康 健康 不健康 健康 不健康 BP=高 * * 数据挖掘:概念与技术 第六十二页,共一百三十四页,2022年,8月28日 情况一:没有先验信息 通过计算先验概率P(HD=Yes)和P(HD=No)来确定一个人是否可能患心脏病 设?∈{Yes, No}表示锻炼的两个值,?∈{健康, 不健康}表示饮食的两个值,由全概率公式 P(HD=Yes) = = = 0.25?0.7?0.25 + 0.45?0.7?0.75 + 0.55?0.3?0.25 + 0.75?0.3?0.75 = 0.49 因为P(HD=No) =1?P(HD=Yes) = 0.51,所以,此人不得心脏病的机率略微大一点 * * 数据挖掘:概念与技术 第六十三页,共一百三十四页,2022年,8月28日 情况二:高血压 如果一个人有高血压,可以通过比较后验概率P(HD=Yes|BP=高)和P(HD=No|BP=高)来诊断他是否患有心脏病 先用全概率公式,计算P(BP=高) P(BP =高) = = 0.85?0.49 +0.2?0.51 = 0.5185 其中??{Yes, No} 用贝叶斯公式计算此人患心脏病的后验概率 * * 数据挖掘:概念与技术 第六十四页,共一百三十四页,2022年,8月28日 情况三 情况三:高血压、饮食健康、经常锻炼身体 患心脏病的后验概率 * * 数据挖掘:概念与技术 第六十五页,共一百三十四页,2022年,8月28日 数据挖掘:概念与技术 5.4 人工神经网络 第六十六页,共一百三十四页,2022年,8月28日 神经网络 神经网络最早是由心理学家和神经学家提出的,旨在寻求开发和测试神经的计算模拟 神经网络是一组连接的输入/输出单元, 其中每个连接都与一个权相关联 在学习阶段, 通过调整神经网络的权, 使得能够预测输入样本的正确类标记 神经网络的优点 对噪音数据的高承受能力 对未知样本的分类能力 神经网络缺点 需要很长的训练时间, 因而对于有足够长训练时间的应用更合适 很难解释蕴涵在学习权之中的符号含义 它需要大量的参数, 这些通常主要靠经验确定,如网络拓扑或“结构” * * 数据挖掘:概念与技术 第六十七页,共一百三十四页,2022年,8月28日 多层前馈神经网络 后向传播是一种神经网络学习算法 后向传播算法在多层前馈(multilayer feed-forward)神经网络上学习 例: 一个多层前馈神经网络 训练样本X = {x1 ,x2 ,..., xi}馈入输入层.每层之间存在加权连接; 其中, wij表示由某层的单元j到前一层的单元i的权 * * 数据挖掘:概念与技术 第六十八页,共一百三十四页,2022年,8月28日 多层前馈神经网络(续) 输入同时提供给称作输入层的单元层 隐藏层的数量是任意的, 实践中通常只用一层 输出层发布给定样本的网络预测 隐藏层和输出层的单元, 有时称作neurodes (源于符号生物学), 或输出单元 包含n个隐藏层的网络称作n+1层神经网络 网络是前馈的, 如果其权都不回送到输入单元, 或前一层的输出单元 网络是全连接的, 如果每个单元都向下一层的每个单元提供输入 给定足够多的隐藏单元, 线性阈值函数的多层前馈神经网络可以逼近任何函数 * * 数据挖掘:概念与技术 第六十九页,共一百三十四页,2022年,8月28日 多层前馈神经网络(续) 定义网络拓扑 用户必须说明输入层的单元数, 隐藏层数, 每一隐藏层的单元数和输出层的单元数 对于“最好的”隐藏层单元数没有明确的规则 网络设计是一个实验过程, 并可能影响结果训练网络的准确性. 权的初值也可能影响结果的准确性 一旦网络经过训练, 并且其准确率不能被接受

文档评论(0)

xiaozhuo2022 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档