数学建模判别分析模型.ppt

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数学建模判别分析模型

一个简单统计模式识别问题 19名男女同学进行体检,测量了身高和体重,但事后发现其中有4人忘记填写性别,试问(在最小错误率的条件下)这4人是男是女?体检数值如下: 统计模式识别例(续) 待识别的模式:性别(男或女) 测量的特征:身高和体重 训练样本:15名已知性别的样本特征 目标:希望借助于训练样本的特征建立判别函数(即数学模型) Fisher线性判别 Fisher线性判别:(统计学家Fisher最早应用于鸢尾花分类问题)投影的思想—寻找一个方向,使得投影后组与组之间尽可能分开,组内数据尽可能集中 图示:见下一张幻灯片 下列方法可以解决这类问题 1、神经网络 2、支持向量机 3、核Fisher线性判别等 1、只提取了三个特征,虽然较好地解决了问题,但是略显粗糙(不是优秀论文 ) ,没有考虑题面信息,比如:三个碱基不同排列组合成20种氨基酸等。应增加一些特征。 2、模型的误差分析,可靠性分析等还是一项比较艰巨的任务 先验概率表示对各总体的先知认识,或者说,事先对所研究的问题所具有的认识。一般来说,先验概率并不容易获得,其更多的来自于长期累积的经验。先验概率可以通过下面几种赋值方法得到: 基于经验或者历史资料进行估计; 利用训练样本中各种样品所占的比例 作为 的值。其中 表示第 类总体的样品数, 是总训练样本数,该方法要求训练样本是通过随机抽样得到的; 3.假定 。 A.确定先验概率 这里用 表示将本来属于总体 的样品错判为总体 的概率,即误判概率,显然,根据概率的定义,易得: ( )……(4) 实际上,(4)式的几何意义是很明显的,见图2。 B.确定错判概率 图2表示的是两个正态总体的误判概率示意图。 误判概率的估计方法有以下几种: (1)利用训练样本为检验集,用判别方法对训练样本进行判断,统计误判的样本个数,计算误判样本占总样本的比例,并作为误判概率的估计值; (2)当训练样本足够大时,从训练样本中预留一部分作为检验集,并记录判错的比率,作为误判概率的估计值; (3)运用舍一法:每次预留一个样本来检验,用剩下 的样本建立判别准则,循环检验完所有训练样本,记录判错的比率,以此作为误判概率的估计值。 C.确定错判损失 错判必然带来损失。现实中,错判的损失一般来说很难定量给出。但是可以运用赋值法来确定: (1) 根据经验或者实际问题的特征人为 确定; (2) 假设各种误判损失都相等。 基于前面的讨论,运用概率知识:判别法 将本来属于总体 的样本错判给其它总体的平均损失为 那么,关于先验概率的平均错判损失 为 ……(5) 如果能找到 使得平均损失 达到最小,那么 就称为贝叶斯(Bayes)判别的解。 D.确定平均损失 定理1:设有 个总体: ,已知 的联合密度函数为 ,先验概率为 ,错判损失为 ,则贝叶斯(Bayes)判别的解 为 其中 ……(6) 下面给出贝叶斯(Bayes)判别的解的主要结论 : -4 -2 0 2 4 6 -4 -3 -2 -1 0 1 2 3 构造一个线性判别函数 上面的函数将 元的数据投影到了一个方向,系数 的确定原则是使得总体间的差异最大,总体内部的离差最小。 A.确定线性判别函数 设有 个 元总体: ,它们的均值为: ;协方差为: 。 在 的条件下,有 令 这里 确定 ,使得 个总体间的差异最大,总体内部的离差最小,则 应该达到最大。 为了确保 的唯一性,不妨设 。因此,问题转化为:在条件 约束下,求 使得 式达到最大——这是大家非常熟悉的条件极值的问题。根据拉格朗日乘子法: 求解得 ……(8) 由方程(8)第一式知, 是 的特征根, 是相应的特征向量。可以证明

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档