数据统计与分析方法.pptVIP

  1. 1、本文档共122页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
抽样方法 分层抽样 分层抽样是先将总体按照研究内容密切有关的主要因素分类或分层,然后在各层中按照随机原则抽取样本。分层抽样可以减少层内差异,增加样本的代表性。 抽样 样本 当到货产品较多时,分层抽样是一种有效的抽样方法; 第五十八页,共一百二十二页。 抽样方法 系统抽样 从总体中每隔K个个体抽取一个个体的抽样方法,比值K是总体容量N与样本容量n之比; 当出版商批量发货及产品特别多时,并且易作某种次序的整理时,系统抽样比分层抽样好; 1, 2, ……. K K+ 1, K+2, …….., 2K 2K + 1, 2K+2, …….., 3K 直到 N为止 例,从具有1000个个体的总体中抽取50个个体。 第五十九页,共一百二十二页。 总体、样本、数据间的关系 总体 样本 结论 数据 抽样 分析 管理 测试 第六十页,共一百二十二页。 数理整理和统计 抽样的目的是通过样本来反映总体。 在书业公司经营管理中,常常将测试的样本数据,通过整理加工,找出它们的特性,从而推断总体的变化规律、趋势和性质。 一批数据的分布情况,可以用中心倾向及数据的分散程度来表示,表示中心倾向的有平均值、中位值等,表示数据分散程度的有方差、标准偏差、极差等。 描述总体数据离散程度的参数为方差σ2 ,描述总体数据中心倾向的数为均值μ 。若利用样本参数近似描述总体状况时,可以利用样本方差S2近似代替总体方差σ2,利用样本均值X近似代替总体均值p。 第六十一页,共一百二十二页。 数理整理和统计 样本平均值 样本中位值 X = —————————— X1+X2+X3 …….+Xn n 中位值是按照数据大小顺序排列位于中间的数值,中位值记为X ~ 若n为偶数,则取位于中间两个数值的平均值为中位值; 第六十二页,共一百二十二页。 数理整理和统计 样本极差 样本方差和样本标准偏差 样本方差和样本标准差就是用来度量数据波动幅度大小的一个重要特性值。样本方差是一组数据中每一个数值与平均值之差的平方和的平均值,通常记为S2;样本方差的平方根S称作样本标准偏差,它与样本方差一样,是反映一组数据分散程度的特性值: 样本极差表示一组数据分布的范围,是指数据中最大值与最小值的差: R = Xmax - Xmin 第六十三页,共一百二十二页。 2、聚类分析 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。 聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。 聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析, 所得到的聚类数未必一致。 第六十四页,共一百二十二页。 分类 俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础设施等指标; 既可以用某一项来分类,也可以同时考虑多项指标来分类。 第六十五页,共一百二十二页。 聚类分析 对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。 比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类, 当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。 下面要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。 第六十六页,共一百二十二页。 饮料数据(drink.sav ) 16种饮料的热量、咖啡因、钠及价格四种变量 第六十七页,共一百二十二页。 如何度量远近? 如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。 如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。 三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。 第六十八页,共一百二十二页。 聚类分析 1、系统聚类法---

文档评论(0)

hekuncheng5991 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档