8.1.2 样本相关系数 课件.pptxVIP

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1;1.结合实例,会通过相关系数比较多组成对数据的相关性.

2.了解样本相关系数与标准化数据向量夹角的关系.;通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等.散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?;x;;思考:根据上述分析.你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?;因为Lxy的大小与数据的度量单位有关,所以不宜直接用它度量成对样本数据相关程度的大小.例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米,则相应的Lxy将变为原来的100倍,但单位的改变并不会导致体重与身高之间相关程度的改变.;我们称r为变量x和变量y的样本相关系数

(samplecorrelationcoefficient).;这样,我们利用成对样本数据构造了样本相关系数r.样本相关系数r是一个描述成对样本数据的数字特征,它的正负性和绝对值的大小可以反映成对样本数据的变化特征:

当r0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.

当r0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.

那么,样本相关系数r的大小与成对样本数据的相关程度有什么内在联系呢?为此,我们先考察一下r的取值范围.;环节四:辨析理解,深化概念;由此可见,样本相关系数r的取值范围为[-1,1].样本相关系数的绝对值大小可以反映成对样本数据之间线性相关的程度:

当|r|越接近1时,成对样本数据的线性相关程度越强;

当|r|越接近0时,成对样本数据的线性相关程度越??.;图8.1-5是不同成对样本数据的散点图和相应的样本相关系数.图(1)中的散点有明显的从左下角到右上角沿直线分布的趋势,说明成对样本数据呈现出线性相关关系;样本相关系数r=0.97,表明成对样本数据的正线性相关程度很强.图(2)中的散点有明显的从左上角到右下角沿直线分布的趋势,说明成对样本数据也呈现出线性相关关系;样本相关系数r=-0.85,表明成对样本数据的负线性相关程度比较强.从样本相关系数来看,图(1)中成对样本数据的线性相关程度要比图(2)中强一些;图(3)和图(4)中的成对样本数据的线性相关程度很弱,其中图(4)中成对样本数据的线性相关程度极弱.;综上可知,两个随机变量的相关性可以通过成对样本数据进行分析,而样本相关系数r可以反映两个随机变量之间的线性相关程度:r的符号反映了相关关系的正负性;|r|的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度.

在有限总体中,若要确切地了解两个变量之间相关关系的正负性及线性相关的程度,我们可以利用这两个变量取值的所有成对数据,通过公式(1)就可以计算出两个变量的相关系数.例如,要确切了解脂肪含量y与年龄x的线性相关程度,需要调查所有人的年龄及其脂肪含量,再将得到的成对数据代入公式(1),计算出相关系数.这个相关系数就能确切地反映变量之间的相关程度.

不过,在实际中,获得总体中所有的成对数据往往是不容易的.因此,我们还是要用样本估计总体的思想来解决问题.也就是说,我们先要通过抽样获取两个变量的一些成对样本数据,再计算出样本相关系数,通过样本相关系数去估计总体相关系数,从而了解两个变量之间的相关程度.对于简单随机样本而言,样本具有随机性,因此样本相关系数r也具有随机性.一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.;年龄/岁;利用统计软件计算样本相关系数,Excel软件用函数CORREL;R软件用函数cor.;例2有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表8.1-2所示.;例2有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表8.1-2所示.;例3在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如表8.1-3所示.体重与身高、臂展与身高分别具有怎样的相关性?;解:根据样本数据画出体重与身高、臂展与身高的散点图,分别如图8.1-7(1)和(2)所示,两个散点图都呈现出线性相关的特征.;身高/cm;1.样本相关系数

文档评论(0)

知识分享 + 关注
实名认证
文档贡献者

分享知识、分享快乐!

1亿VIP精品文档

相关文档