残差分析--数据分析课件.pptxVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2.3 残差分析 前面讨论的是线性回归模型的参数估计和有 关的统计推断,这些讨论都是在对模型作了一定 的假设进行的,其中最重要的是回归关系的线性 假设,误差项的独立同正态分布假设。当给定了 一批数据后,如何考察这些数据满足假设是回归 分析的一个重要环节。 这些假设涉及到误差项,而误差是不可测的, 我们能够使用的是其估计量残差。 从误差的估计值(残差)出发分析关于误差项 假定的合理性以及线性回归关系的假定的可行性称 为残差分析。 2.3.1 误差项的正态性检验 一、学生化残差 假设误差向量 则残差向量 是H 主对角线的第 i 个元素,称为 杠杆量。 其中H是n阶对称幂等矩阵 故 其中 二、残差正态性的频率检验 残差正态性的频率检验是一种很直观的检验方 法,其基本思想是学生化残差落入一些范围的频率 与标准正态分布在相应范围内的概率做比较,若二 者相差较大,则认为残差(从而模型误差)不服从 正态分布。 在实际应用中,一般取几个具有代表性的区间 进行比较。例如(-1,1)(-1.5,1.5)(2,2) 服从标准正态分布的随机变量取值在( -1 , 1 ) 内的概率为0.68;在(-1.5,1.5)内的概率为0.87; 在(-2,2)内为0.95,因此若模型误差项独立同 正态分布,则当n较大时,学生化残差中应大约有 68%的点落在在(-1,1)内;大约有87%在(- 1.5,1.5)内,大约95%在(-2,2)内。 若在某个区间内差异较大,则有理由怀疑误差 独立同正态分布的假设的合理性。 则所得的散点图即为学生化残差的正态qq 图, 利用正态qq图可以直观检验误差正态性假设的合理 性 三、残差的正态qq图检验 (1)学生化残差正态qq图做法 (2)相关系数检验。 除了上述直观检验外,我们还可以构造两者的 相关系数来度量二者之间线性关系的强弱。其相关 系数估计为 若线性回归关系正确且误差服从正态分布,则 因变量的拟合值与残差向量相互独立。这时残差图 中的点应大致在一个水平的带状区域内,没有任何 明显地趋势,如下图: (1)以因变量Y的拟合值为横坐标的散点图。 还可以用以下坐标做残差图,两种残差图原理 与上一个相同 (2)以自变量观测值为横坐标的散点图。 (3)以观测时间或观测值序号横坐标的散点图。 也就是说,我们通过因变量的变换,使得变换后 因变量与自变量有线性相关关系,且满足误差项的 假设。 Box-Cox变换对因变量Y做如下变换: 2.4 回归方程的选取 回归方程的选取包括回归方程类型的选取和回归 方程类型确定后自变量的选取。我们主要讨论自变量 的选取 人们在建立线性回归模型时,会考虑用全部可能 的自变量建立回归方程,这样做的问题有 : (1)会将一些对因变量影响很小甚至根本无影响 的自变量也包含在回归方程中,从而使计算量增加, 并会导致回归参数估计和因变量预测值的精度下降。 (2)自变量太多不利于应用回归方程对实际问题 做出合理的解释,也会造成数据收集和模型应用 代价的不必要的增大。 因此在实际应用中,从与因变量有线形关系的 自变量集合中,选取一个最优的子集,以建立一个 合理而又简单的回归方程十分重要。 一,穷举法 穷举法就是从与因变量有线性关系的所有可能 自变量的所有子集所拟合的回归方程中,按照一定 的准则选取最优的一个或几个。 下面是sas提供选择的几个穷举法的选取准则 二,逐步回归法 穷举法从理论上讲是选择回归方程最好的方法, 但是,穷举法所拟合的方程个数随自变量数目的增加 而成倍增加。其计算量非常大。 (3) Cp准则 逐步回归法的基本思想是依次拟合一系列回归方程, 后一个回归方程是在前一个的基础上增加或删除一个 自变量,其增加和删除的原则是用残差平方和的相对 减少或增加量来衡量。 偏F统计量: 若某个自变量对因变量影响显著,则其偏F统计量 不应太小. (2)后向选择法 首先拟合一个包含所有自变量的线性回归模型, 然后根据偏F统计量的p值与给定的控制水平相比较. 将所有对因变量影响不显著的自变量逐个删除,直到 模型中的所有自变量在给定控制水平下均显著为止. (3)逐步回归法 将前向选择和后向选择结合使用.它有两个 控制水平,一个控制自变量的引入,一个控制现有 模型中自变量的删除.

文档评论(0)

186****6581 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档