- 1、本文档共103页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学聚类分析教程文件.ppt
将Gm组中数据投影的均值记为 有 记k组数据投影的总均值为 有 组间离差平方和为: 这里 组内离差平方和为: 这里 注:L=|E|/|B+E|为有Wilks分布的检验零假设H0:m(1)=…= m(k)的似然比统计量. Wilks分布常用c2分布近似(Bartlett) 希望寻找a使得SSG尽可能大而SSE尽可能小,即 记方程|B-lE|=0的全部特征根为l1 ≥ …≥ lr0, 相应的特征向量为v1,…,vr. D(a)的大小可以估计判别函数yi(x)=vi’x (= a’x)的效果. 记pi为判别能力(效率), 有 最大的值为方程|B-lE|=0的最大特征根l1. 使 m个判别函数的判别能力定义为 据此来确定选择多少判别函数。再看逐步判别法。 判别分析(Discriminant Analysis) 和聚类分析的关系 判别分析和聚类分析都是分类. 但判别分析是在已知对象有若干类型和一批已知样品的观测数据后的基础上根据某些准则建立判别式. 而做聚类分析时类型并不知道. 可以先聚类以得知类型,再进行判别. 距离判别法 假设有两个总体G1和G2, 如果能够定义点x到它们的距离D(x,G1)和D(x,G2), 则 如果D(x,G1) D(x,G2)则 x∈G1 如果D(x,G2) D(x,G1)则 x∈G2 如果D(x,G1) = D(x,G2)则待判 Mahalanobis距离 假设m(1), m(2), S(1), S(2)分别为G1和G2的均值向量和协差阵,则点x到Gi的马氏距离定义为 D2(x,Gi)=(x- m(i))’(S(i))-1(x- m(i)) 其他一些距离为马氏距离的特殊情况,因此我们着重讨论马氏距离.马氏距离的好处是可以克服变量之间的相关性干扰,并且消除各变量量纲的影响. 线性判别函数:当S(1)=S(2)=S时 记 如果W(x)0即D(x,G1)D(x,G2)则 x∈G1 如果W(x)0即D(x,G1)D(x,G2)则 x∈G2 如果W(x)=0即D(x,G1)=D(x,G2)则待判 当m(1), m(2), S 已知时, 令a= S-1(m(1)- m(2) ) ≡(a1,…, ap)’,则 显然W(x)为x1,…, xp的线性函数, 称为线性判别函数; a称为判别系数. 聚类要注意的问题 聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。 相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。? 聚类要注意的问题 另外就分成多少类来说,也要有道理。只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类。 但是,聚类的目的是要使各类之间的距离尽可能地远,而类中点的距离尽可能的近,并且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。 SPSS实现(聚类分析) 分层聚类 对drink.sav数据在SPSS中选择Analyze-Classify-Hierarchical Cluster, 然后把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格)选入Variables, 在Cluster选Cases(这是Q型聚类:对观测值聚类),如果要对变量聚类(R型聚类)则选Variables, 为了画出树状图,选Plots,再点Dendrogram等。 统计学 ─从数据到结论 第十二章 判别分析 12.1 判别分析(discriminant analysis) 某些昆虫的性别只有通过解剖才能够判别 但雄性和雌性昆虫在若干体表度量上有些综合的差异。人们就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并以此标准来判别其他未知性别的昆虫。 这样虽非100%准确的判别至少大部分是对的,而且用不着杀生。此即判别分析 判别分析(discriminant analysis) 判别分析和聚类分析有何不同? 在聚类分析中,人们一般事先并不知道应该分成几类及哪几类,全根据数据确定。 在判别分析中,至少有一个已经明确知道类别的“训练样本”,并利用该样本来建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。 判别分析例子 数据disc.txt:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。 指标有:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等. 另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。 判别分析例子 希望根据这些企业的上述变量的打分及其已知的类别(
文档评论(0)