第五章-判别分析.doc

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

应用多元统计分析

第五章判别分析

目录

§5.1距离判别

§5.2Bayes(贝叶斯)判别法及

广义平方距离判别法

§5.3Fisher(费歇)判别

什么是判别分析:

判别分析是用于判断样品所属类型的一种统计分析方法.

在生产、科研和日常生活中经常遇到如何根据观测到的数据资料对所研究的对象进行判别归类的问题.例如:在医学诊断中,一个病人肺部有阴影,医生要判断他是肺结核、肺部良性肿瘤还是肺癌.这里肺结核病人、良性瘤病人、肺癌病人组成三个总体,病人来源于这三个总体之一,判别分析的目的是通过测得病人的指标(阴影的大小,边缘是否光滑,体温多少……)来判断他应该属哪个总体(即判断他生什么病).

在气象学中,由气象资料判断明天是阴天还是晴天,是有雨还是无雨.

在市场预测中,由调查资料判断下季度(或下个月)产品是畅销、平常或滞销.股票持有者根据某种股票近期的变化情况判断此种股票价格下一周是上升还是下跌.在环境科学中,由气象条件,污染浓度等判断该地区是属严重污染,一般污染还是无污染.

在地质勘探中,由岩石标本的多种特征判断地层的地质年代,是有矿还是无矿,是富矿还是贫矿.

在体育运动中,由运发动的多项运动指标来判定游泳运发动的苗子是适合练蛙泳,仰泳还是自由泳等

判别分析是应用性很强的一种多元统计方法,已渗透到各个领域.但不管是哪个领域,判别分析问题

都可以这样描述:

设有k个m维总体G1,G2,…,Gk,其分布特征(如分布函数分别为F1(x),F2(x),…,Fk(x),或知道来自各个总体的训练样本).对给定的一个新样品X,我们要判断它来自哪个总体.

在进行判别归类时,由假设的前提,判别的依据及处理的手法不同,可得出不同判别方法.如距离判别,Bayes判别,Fisher判别或典型判别,逐步判别,序贯判别等.

本章介绍几个常用的判别方法

§5.1距离判别法

距离判别的根本思想是:样品和哪个总体距离最近,就判它属哪个总体.距离判别也称为直观判别法.

我们在具体讨论距离判别法之前,应给出合理的距离的定义

例如

马氏距离:

有两个类G1和G2,比方G1是设备A生产的产品,G2是设备B生产的同类产品.设备A的产品质量高(如考察指标为耐磨度X),其平均耐磨度μ1=80,反映设备精度的方差σ2(1)=0.25;设备B的产品质量稍差,其平均耐磨度μ2=75,反映设备精度的方差σ2(2)=4.今有一产品X0,测得耐磨度x0=78,试判断该产品是哪一台设备生产的?直观地看,x0与μ1(设备A)的绝对距离近些,按距离最近的原那么是否应把该产品X0判断为设备A生产的?

考虑一种相对于分散性的距离.记X0与G1,G2的相对平方距离为d21(x0)或d22(x0),那么:

因为d2(x0)=1.54=d1(x0),按这种距离准那么应判X0为设备B生产的.

设备B生产的产品质量较分散,出现x0为78的可能性仍较大;而设备A生产的产品质量较集中,出现x0为78的可能性较小.判X0为设备B的产品更合理.

这种相对于分散性的距离就是本节介绍的马氏距离.

一般地,我们假设G1的分布为N(μ(1),σ21),G2的分布为N(μ(2),σ22),那么利用相对距离的定义,可以找出分界点μ*(不妨设μ(2)μ(1)),当μ(2)xμ(1)时,令

而按这种距离最近的判别准那么为:

利用马氏距离对两个一维正态总体判别归类示意图

令:(μ*=79为到两总体相对距离相等的分界点)

马氏距离

(马氏距离)设总体G为m维总体(考察m个指标),均值向量为μ=(μ1,μ2,…,μm)′,协方差阵为Σ=(σij),那么样品X=(x1,x2,…,xm)′与总体G的马氏距离定义为

多总体样本特征量

设有k个总体Gi(i=1,…,k),来自Gi(i=1,..,k)的训练样本为:

其中ni是取自Gi的样品个数,那么均值向量μi的估计量为:

总体Gi的协方差阵Σi的估计Si为 并称St为组内协差阵.

称为组内离差阵。

当假定Σ1=…=Σk=Σ时,反映分散性的协方差阵Σ的估计S为

并称S为合并样本协差阵;

其中

问题是对任给定的m维样品X=(x1,x2,…,xm)′,要判断它来自哪个总体.

两总体判别:Σ1=Σ2时的判别方法

最直观的想法是分别计算样品X到两个总体的距离d21(X)和d22(X)(或记为d2(X,G1)和d2(X,G2)),并按距离最近

文档评论(0)

181****7662 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档