- 1、本文档共74页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章 直线回归与相关 客观事物在发展过程中是相互联系、相互影响,常常要研究两个或两个以上变量间的关系。 如人的身高与体重的关系,作物种植密度与产量的关系,食品价格与需求量的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。 一种是因果关系,即一个变量的变化受另一个或几个变量的影响。如小麦的生长速度受遗传特性、营养水平、管理条件等因素的影响。 另一种是平行关系,它们互为因果或共同受到另外因素的影响。如人的身高和胸围之间的关系属于平行关系。 研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析; 研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。 一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。 对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。 2 直线回归 2.1 直线回归方程的建立 总体线性回归模型的图示 总体线性回归模型 建立 样本线性回归方程的方法最小二乘法 、b应使回归估计值 与实际观测值y的偏差平方和最小,即:总的离回归平方和,即剩余平方和 经整理,得关于a、b的正规方程组: 在6-7式中,分子为自变量x的离均差与依变量y的离均差的乘积和 ,简称乘积和,记作 ,分母是自变量x的离均差平方和 ,记作SSX。 【例6-1】食品感官评定时,测得食品甜度与蔗糖浓度的关系如表6-2所示,试建立y与x的直线回归方程。 (1)作散点图 以蔗糖质量分数(x)为横坐标,甜度(y)为纵坐标作散点图,如图6-2所示。 根据直线回归方程可作出回归直线,见图。从图看出,并不是所有的散点都恰好落在回归直线上,这说明用 去估计y是有偏差的。 附:直线回归的偏离度估计 偏差平方和 的大小表示了实测点与回归直线偏离的程度,因而此偏差平方和又称为离回归平方和。统计学证明:在直线回归分析中离回归平方和的自由度为n-2。那么,离回归均方为: 离回归均方是模型(6-1)中σ2的估计值。 离回归均方的平方根叫离回归标准误,记为 , 离回归标准误Syx的大小表示了回归直线与实测点偏差的程度,即回归估测值 与实 际观测值y偏离(差)的程度,所以,用离回归标准误Syx来表示回归方程的偏离度。 如果x和y变量间并不存在直线关系, 但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程 =a+bx。 显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。 如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x与y间是否存在直线关系。从y的变异着手来分析。 所以有 (6-9) 反映了y的总变异程度,称为y的总偏差平方和,记为SSy; 反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSR; 反映了除y与x存在直线关系以外的一切因素(包括x对y的非线性影响及其他一切未加控制的随机因素)所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr或SSe。 所以,y的总变异平方和可分解为: 在直线回归分析中,回归自由度等于自变量的个数, 即 ;y的 总 自 由度 ;离回归自由度 。于是: 离回归均方 , 回 归 均 方 。
文档评论(0)