- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
贝叶斯信念网络
朴素贝叶斯分类
(NaiveBayesianClassification)
贝叶斯信念网络
(BayesianBliefNetworks)
朴素贝叶斯分类
一.摘要
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。
这里首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。
二.分类问题综述
对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没有意识到罢了。例如,当你看到一个陌生人,你的脑子下意识判断TA是男是女;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话,其实这就是一种分类操作。
从数学角度来说,分类问题可做如下定义:
其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。
例如,医生对病人进行诊断就是一个典型的分类过程,任何一个医生都无法直接看到病人的病情,只能观察病人表现出的症状和各种化验检测数据来推断病情,这时医生就好比一个分类器,而这个医生诊断的准确率,与他当初受到的教育方式(构造方法)、病人的症状是否突出(待分类数据的特性)以及医生的经验多少(训练样本数量)都有密切关系。
三.贝叶斯定理
贝叶斯定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率:
P(A|B)表示事件B已经发生的前提下,事件A发生的概率,P(B|A)叫做事件B发生下事件A的条件概率。其基本求解公式为:
贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。下面不加证明地直接给出贝叶斯定理:
四.朴素贝叶斯分类
1:朴素贝叶斯分类的原理与流程
朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项(x),求解在此项出现的条件下各个类别(y)出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或欧洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。
朴素贝叶斯分类的正式定义如下:
那么现在的关键就是如何计算第3步中的各个条件概率。
我们可以这么做:?????
1)、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。?????
2)、统计得到在各类别下各个特征属性的条件概率估计,即:
5、使用分类器进行鉴别
下面我们使用上面训练得到的分类器鉴别一个账号,这个账号日志数量与注册天数的比率a1为0.1,好友数与注册天数的比率a2为0.2,使用非真实头像a3=0。
可以看到,虽然这个用户没有使用真实头像,但是通过分类器的鉴别,更倾向于将此账号归入真实账号类别。这个例子也展示了当特征属性充分多时,朴素贝叶斯分类对个别属性的抗干扰性。
6.如何评价分类器的质量
首先要定义,分类器的正确率指分类器正确分类的项目占所有被分类项目的比率。
通常使用回归测试来评估分类器的准确率,最简单的方法是用构造完成的分类器对训练数据进行分类,然后根据结果给出正确率评估。但这不是一个好方法,因为使用训练数据作为检测数据有可能因为过分拟合而导致结果过于乐观,所以一种更好的方法是在构造初期将训练数据一分为二,用一部分构造分类器,然后用另一部分检测分类器的准确率。
贝叶斯信念网络
在我们讨论朴素贝叶斯分类时,朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。
接下来讨论贝叶斯分类中更高级、应用范围更广的一种算法——贝叶斯网络(又称贝叶斯信念网络或信念网络)。
一:贝叶斯信念网络概述
贝叶
您可能关注的文档
- 网约车 上海细则.pptx
- 网约车 实施细则.pptx
- 网约车公司运营细则.pptx
- 网约车合法化细则.pptx
- 网约车实施细则.pptx
- 网约车细则 南昌.pptx
- 网约车细则发布.pptx
- 网约车新政细则.pptx
- 网站信息报送考核细则.pptx
- 往来款项操作细则.pptx
- 2024年度国家开放大学电大《公共行政学》形考任务辅导资料.docx
- 2024年度(最新)国家开放大学电大本科《公共行政学》形考任务辅导资料(含答案).docx
- 2024国家开放大学电大《公共行政学》形考任务(含答案).docx
- 2024年最新国家开放大学本科《公共行政学》形考任务(含答案).docx
- 2024年最新国开(电大)《公共行政学》形考任务(含答案).docx
- 2024年国开本科《公共行政学》形考任务(含答案).docx
- 2024年最新国家开放大学《公共行政学》形考任务辅导资料及答案.docx
- 2024年度国家开放大学电大本科《公共行政学》形考任务辅导资料(含答案).docx
- 2024年(最新)国开本科《公共行政学》形考任务及答案.docx
- 2024年度(最新)国家开放大学电大《公共行政学》形考任务辅导资料(含答案).docx
文档评论(0)