分类其他技术.ppt

下载文档

0
0
约2.06万字
约 134页
2023-09-11 发布于广东
举报
版权申诉
保障服务

分类其他技术.ppt

1、本文档共134页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SVM(续) 使用Karuch-Kuhn-Tucher（KKT）条件： ?i ≥ 0 ?i [yi(wxi + b) ? 1] = 0 （5.42）除非训练实例满足方程yi(wxi + b) = 1, 否则拉格朗日乘子?i必须为零 ?i 0的训练实例位于超平面bi1或bi2上，称为支持向量（5.39）和（5.40）代入到公式（5.38）中这是Lp的对偶问题(最大化问题 ). 可以使用数值计算技术, 如二次规划来求解 (5-43) * * 数据挖掘：概念与技术第九十四页，共一百三十四页，2022年，8月28日使用BBN进行推理举例 E: 锻炼, D: 饮食, HD: 心脏病, Hb: 胸口痛, BP: 血压, CP: 胸痛锻炼饮食心口痛心脏病血压胸痛 D=健康 D=健康 D=不健康健康不健康健康不健康 BP=高 * * 数据挖掘：概念与技术第六十二页，共一百三十四页，2022年，8月28日情况一：没有先验信息通过计算先验概率P(HD=Yes)和P(HD=No)来确定一个人是否可能患心脏病设?∈{Yes, No}表示锻炼的两个值，?∈{健康, 不健康}表示饮食的两个值，由全概率公式 P(HD=Yes) = = = 0.25?0.7?0.25 + 0.45?0.7?0.75 + 0.55?0.3?0.25 + 0.75?0.3?0.75 = 0.49 因为P(HD=No) =1?P(HD=Yes) = 0.51，所以，此人不得心脏病的机率略微大一点 * * 数据挖掘：概念与技术第六十三页，共一百三十四页，2022年，8月28日情况二：高血压如果一个人有高血压，可以通过比较后验概率P(HD=Yes|BP=高)和P(HD=No|BP=高)来诊断他是否患有心脏病先用全概率公式，计算P(BP=高) P(BP =高) = = 0.85?0.49 +0.2?0.51 = 0.5185 其中??{Yes, No} 用贝叶斯公式计算此人患心脏病的后验概率 * * 数据挖掘：概念与技术第六十四页，共一百三十四页，2022年，8月28日情况三情况三：高血压、饮食健康、经常锻炼身体患心脏病的后验概率 * * 数据挖掘：概念与技术第六十五页，共一百三十四页，2022年，8月28日数据挖掘：概念与技术 5.4 人工神经网络第六十六页，共一百三十四页，2022年，8月28日神经网络神经网络最早是由心理学家和神经学家提出的,旨在寻求开发和测试神经的计算模拟神经网络是一组连接的输入/输出单元, 其中每个连接都与一个权相关联在学习阶段, 通过调整神经网络的权, 使得能够预测输入样本的正确类标记神经网络的优点对噪音数据的高承受能力对未知样本的分类能力神经网络缺点需要很长的训练时间, 因而对于有足够长训练时间的应用更合适很难解释蕴涵在学习权之中的符号含义它需要大量的参数, 这些通常主要靠经验确定,如网络拓扑或“结构” * * 数据挖掘：概念与技术第六十七页，共一百三十四页，2022年，8月28日多层前馈神经网络后向传播是一种神经网络学习算法后向传播算法在多层前馈(multilayer feed-forward)神经网络上学习例: 一个多层前馈神经网络训练样本X = {x1 ,x2 ,..., xi}馈入输入层.每层之间存在加权连接; 其中, wij表示由某层的单元j到前一层的单元i的权 * * 数据挖掘：概念与技术第六十八页，共一百三十四页，2022年，8月28日多层前馈神经网络(续) 输入同时提供给称作输入层的单元层隐藏层的数量是任意的, 实践中通常只用一层输出层发布给定样本的网络预测隐藏层和输出层的单元, 有时称作neurodes (源于符号生物学), 或输出单元包含n个隐藏层的网络称作n+1层神经网络网络是前馈的, 如果其权都不回送到输入单元, 或前一层的输出单元网络是全连接的, 如果每个单元都向下一层的每个单元提供输入给定足够多的隐藏单元, 线性阈值函数的多层前馈神经网络可以逼近任何函数 * * 数据挖掘：概念与技术第六十九页，共一百三十四页，2022年，8月28日多层前馈神经网络(续) 定义网络拓扑用户必须说明输入层的单元数, 隐藏层数, 每一隐藏层的单元数和输出层的单元数对于“最好的”隐藏层单元数没有明确的规则网络设计是一个实验过程, 并可能影响结果训练网络的准确性. 权的初值也可能影响结果的准确性一旦网络经过训练, 并且其准确率不能被接受