建模培训讲座(聚类分析及SAS)课件.ppt

下载文档 降价啦

4
0
约1.46万字
约 118页
2016-08-12 发布于河南
举报
版权申诉
保障服务

建模培训讲座(聚类分析及SAS)课件.ppt

1、本文档共118页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

8.2 判别分析 8.2.1 判别分析的基本概念 8.2.2 SAS中作判别分析的过程 8.2.3 分析实例 8.2.1 判别分析的基本概念 1. 距离判别法距离判别的基本思想是：样品和哪个总体的距离最近，就判断它属于哪个总体。 (1) 两总体情况设有两个总体G1和G2，若定义样品x到G1和G2的距离分别为d2(x,G1)和d2(x,G2)，则距离判别的判别规则是：即未知所属总体的样品x离哪个总体较近，就判x属于哪个总体。当总体G1和G2为正态总体，距离选用马氏距离，公式为：式中，μ1，μ2，?1，?2分别为总体G1和G2的均值和协差阵。当?1 = ?2 = ?时，可以证明： d2(x,G1) – d2(x,G2) = – 2[x – (μ1+μ2)/2] ?–1 (μ1–μ2) 令于是判别规则可表示为称W(x)为判别函数。由于它是x的线性函数，因此又称为线性判别函数。线性判别的应用最为广泛。如果?1与?2不等，则判别函数W(x)为： W(x) = d2(x，G1) – d2(x，G2) = 即W(x)是x的二次函数。 (2) 多总体情况设有m个总体：G1，G2，…，Gm（m 2），它们的均值、协差阵分别为μi，?i，(i = 1，2，…，m)。对任意给定的样品x，要判断它来自哪个总体。多总体按距离最近的准则对x进行判别归类时，首先计算样品x到m个总体的马氏距离di2(x)（i = 1,2,…,m），然后进行比较，把x判归距离最小的那个总体。即若dh2(x) = min{di2(x) | i = 1,2,…,m}，则x ? Gh。计算马氏距离di2(x)（i = 1,2,…,m）时，类似地可考虑?1 = ?2 = … = ?m或?i不全相等的两种情况，并用样本统计量作为μi和?i的估计. 2. 费歇尔判别（Fisher）下面以两个总体为例说明费歇尔判别的思想。设有两个总体G1、G2，其均值分别为?1和?2，协方差阵分别?1和?2，并假定?1 = ?2 = ?，考虑线性组合：y = Lx。通过寻求合适的L向量，使得来自两个总体的数据间的距离较大，而来自同一个总体数据间的差异较小。为此，可以证明，当选L=c?–1(?1–?2)，其中c ? 0时，所得的投影即满足要求。从而称c = 1时的线性函数： y = Lx = (?1 – ?2)?–1x 为费歇尔线性判别函数。其判别规则为：其中，m为两个总体均值在投影方向上的中点，即当?1、?2和?未知时，可由总体G1和G2中分别抽出n1和n2个样品，计算相应的样本均值和协方差阵作为?1、?2和?的估计。 3. 贝叶斯判别（Bayes） (1) 贝叶斯判别法设有m个总体G1,…,Gm，假定它们各自的分布密度分别为f1(x)，f2(x)，…，fm(x)，各自的先验概率（可以根据经验事先给出或估出）分别为q1,q2,…,qm，显然贝叶斯判别的方法是：当抽取了一个未知总体的样品x，要判断它属于哪个总体，可用著名的贝叶斯公式计算x属于第j个总体的后验概率：当时，判断x属于第h个总体。或者计算按先验概率加权的误判平均损失：然后再比较这m个误判平均损失的h1(x)，h2(x)，…，hm(x)的大小，选取其中最小的，就可以判定样品x来自该总体。上式中C(j | i)为假定本来属于Gi的样品被判为属于Gj时造成的损失。当然C(i | i) = 0，C(j | i)? 0（i，j = 1，…，m）。在实际问题中，错判的损失可以给出定性的分析，但很难用数值来表示，但应用贝叶斯判别的方法时，要求定量给出C(j | i)，C(j | i)的赋值常用以下两种方法： ● 根据经验人为赋值； ● 假定各种错判的损失都相等。 (2) 错判概率当样品x?Gi，用判别法D判别时，把x判归Gj (i≠j)，出现错判。用P(j|I;D)（或简记为P(j|i)）表示实属Gi的样品错判为Gj的概率，错判概率的估计方法有下面几种： ● 利用训练样本作为检验集，即用判别方法对已知样品进行回判，统计错判的个数以及错判的比率，作为错判率的估计。此法得出的估计一般较低。 ● 当训练样本的大小足够大时，可留出一些已知类别的样品不参加建立判别准则，而是作为检验集，并把错判的比率作为错判率的估计。此法当检验集较小时估计的方差大。 ● 设一法（或称为交叉确认法），每次留出一个已知类别的