建模培训讲座(聚类分析及SAS)课件.ppt

  1. 1、本文档共118页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
8.2 判别分析 8.2.1 判别分析的基本概念 8.2.2 SAS中作判别分析的过程 8.2.3 分析实例 8.2.1 判别分析的基本概念 1. 距离判别法 距离判别的基本思想是:样品和哪个总体的距离最近,就判断它属于哪个总体。 (1) 两总体情况 设有两个总体G1和G2,若定义样品x到G1和G2的距离分别为d2(x,G1)和d2(x,G2),则距离判别的判别规则是: 即未知所属总体的样品x离哪个总体较近,就判x属于哪个总体。 当总体G1和G2为正态总体,距离选用马氏距离,公式为: 式中,μ1,μ2,?1,?2分别为总体G1和G2的均值和协差阵。 当?1 = ?2 = ?时,可以证明: d2(x,G1) – d2(x,G2) = – 2[x – (μ1+μ2)/2] ?–1 (μ1–μ2) 令 于是判别规则可表示为 称W(x)为判别函数。由于它是x的线性函数,因此又称为线性判别函数。线性判别的应用最为广泛。 如果?1与?2不等,则判别函数W(x)为: W(x) = d2(x,G1) – d2(x,G2) = 即W(x)是x的二次函数。 (2) 多总体情况 设有m个总体:G1,G2,…,Gm(m 2),它们的均值、协差阵分别为μi,?i,(i = 1,2,…,m)。对任意给定的样品x,要判断它来自哪个总体。 多总体按距离最近的准则对x进行判别归类时,首先计算样品x到m个总体的马氏距离di2(x)(i = 1,2,…,m),然后进行比较,把x判归距离最小的那个总体。 即若dh2(x) = min{di2(x) | i = 1,2,…,m},则x ? Gh。 计算马氏距离di2(x)(i = 1,2,…,m)时,类似地可考虑?1 = ?2 = … = ?m或?i不全相等的两种情况,并用样本统计量作为μi和?i的估计. 2. 费歇尔判别(Fisher) 下面以两个总体为例说明费歇尔判别的思想。 设有两个总体G1、G2,其均值分别为?1和?2,协方差阵分别?1和?2,并假定?1 = ?2 = ?,考虑线性组合:y = Lx。通过寻求合适的L向量,使得来自两个总体的数据间的距离较大,而来自同一个总体数据间的差异较小。为此,可以证明,当选L=c?–1(?1–?2),其中c ? 0时,所得的投影即满足要求。从而称c = 1时的线性函数: y = Lx = (?1 – ?2)?–1x 为费歇尔线性判别函数。 其判别规则为: 其中,m为两个总体均值在投影方向上的中点,即 当?1、?2和?未知时,可由总体G1和G2中分别抽出n1和n2个样品,计算相应的样本均值和协方差阵作为?1、?2和?的估计。 3. 贝叶斯判别(Bayes) (1) 贝叶斯判别法 设有m个总体G1,…,Gm,假定它们各自的分布密度分别为f1(x),f2(x),…,fm(x),各自的先验概率(可以根据经验事先给出或估出)分别为q1,q2,…,qm,显然 贝叶斯判别的方法是:当抽取了一个未知总体的样品x,要判断它属于哪个总体,可用著名的贝叶斯公式计算x属于第j个总体的后验概率: 当 时,判断x属于第h个总体。或者计算按先验概率加权的误判平均损失: 然后再比较这m个误判平均损失的h1(x),h2(x),…,hm(x)的大小,选取其中最小的,就可以判定样品x来自该总体。 上式中C(j | i)为假定本来属于Gi的样品被判为属于Gj时造成的损失。当然C(i | i) = 0,C(j | i)? 0(i,j = 1,…,m)。 在实际问题中,错判的损失可以给出定性的分析,但很难用数值来表示,但应用贝叶斯判别的方法时,要求定量给出C(j | i),C(j | i)的赋值常用以下两种方法: ● 根据经验人为赋值; ● 假定各种错判的损失都相等。 (2) 错判概率 当样品x?Gi,用判别法D判别时,把x判归Gj (i≠j),出现错判。用P(j|I;D)(或简记为P(j|i))表示实属Gi的样品错判为Gj的概率,错判概率的估计方法有下面几种: ● 利用训练样本作为检验集,即用判别方法对已知样品进行回判,统计错判的个数以及错判的比率,作为错判率的估计。此法得出的估计一般较低。 ● 当训练样本的大小足够大时,可留出一些已知类别的样品不参加建立判别准则,而是作为检验集,并把错判的比率作为错判率的估计。此法当检验集较小时估计的方差大。 ● 设一法(或称为交叉确认法),每次留出一个已知类别的

文档评论(0)

lifang365 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档