残差分析--数据分析课件.pptxVIP

下载本文档

9
0
约1.79千字
约 23页
2023-10-24 发布于江苏
举报
版权申诉

残差分析--数据分析课件.pptx

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2.3 残差分析前面讨论的是线性回归模型的参数估计和有关的统计推断，这些讨论都是在对模型作了一定的假设进行的，其中最重要的是回归关系的线性假设，误差项的独立同正态分布假设。当给定了一批数据后，如何考察这些数据满足假设是回归分析的一个重要环节。这些假设涉及到误差项，而误差是不可测的，我们能够使用的是其估计量残差。从误差的估计值(残差)出发分析关于误差项假定的合理性以及线性回归关系的假定的可行性称为残差分析。 2.3.1 误差项的正态性检验一、学生化残差假设误差向量则残差向量是H 主对角线的第 i 个元素，称为杠杆量。其中H是n阶对称幂等矩阵故其中二、残差正态性的频率检验残差正态性的频率检验是一种很直观的检验方法，其基本思想是学生化残差落入一些范围的频率与标准正态分布在相应范围内的概率做比较，若二者相差较大，则认为残差(从而模型误差)不服从正态分布。在实际应用中，一般取几个具有代表性的区间进行比较。例如(-1，1)(－1.5，1.5)(2，2) 服从标准正态分布的随机变量取值在( -1 ， 1 ) 内的概率为0.68；在(-1.5,1.5)内的概率为0.87；在(-2，2)内为0.95，因此若模型误差项独立同正态分布，则当n较大时，学生化残差中应大约有 68%的点落在在(-1，1)内；大约有87%在(- 1.5,1.5)内，大约95%在(-2，2)内。若在某个区间内差异较大，则有理由怀疑误差独立同正态分布的假设的合理性。则所得的散点图即为学生化残差的正态qq 图，利用正态qq图可以直观检验误差正态性假设的合理性三、残差的正态qq图检验 (1)学生化残差正态qq图做法 (2)相关系数检验。除了上述直观检验外，我们还可以构造两者的相关系数来度量二者之间线性关系的强弱。其相关系数估计为若线性回归关系正确且误差服从正态分布，则因变量的拟合值与残差向量相互独立。这时残差图中的点应大致在一个水平的带状区域内，没有任何明显地趋势，如下图： (1)以因变量Y的拟合值为横坐标的散点图。还可以用以下坐标做残差图，两种残差图原理与上一个相同 (2)以自变量观测值为横坐标的散点图。 (3)以观测时间或观测值序号横坐标的散点图。也就是说，我们通过因变量的变换，使得变换后因变量与自变量有线性相关关系，且满足误差项的假设。 Box-Cox变换对因变量Y做如下变换： 2.4 回归方程的选取回归方程的选取包括回归方程类型的选取和回归方程类型确定后自变量的选取。我们主要讨论自变量的选取人们在建立线性回归模型时，会考虑用全部可能的自变量建立回归方程，这样做的问题有： (1)会将一些对因变量影响很小甚至根本无影响的自变量也包含在回归方程中，从而使计算量增加，并会导致回归参数估计和因变量预测值的精度下降。 (2)自变量太多不利于应用回归方程对实际问题做出合理的解释，也会造成数据收集和模型应用代价的不必要的增大。因此在实际应用中，从与因变量有线形关系的自变量集合中，选取一个最优的子集，以建立一个合理而又简单的回归方程十分重要。一，穷举法穷举法就是从与因变量有线性关系的所有可能自变量的所有子集所拟合的回归方程中，按照一定的准则选取最优的一个或几个。下面是sas提供选择的几个穷举法的选取准则二，逐步回归法穷举法从理论上讲是选择回归方程最好的方法，但是，穷举法所拟合的方程个数随自变量数目的增加而成倍增加。其计算量非常大。 (3) Cp准则逐步回归法的基本思想是依次拟合一系列回归方程，后一个回归方程是在前一个的基础上增加或删除一个自变量，其增加和删除的原则是用残差平方和的相对减少或增加量来衡量。偏F统计量：若某个自变量对因变量影响显著,则其偏F统计量不应太小. (2)后向选择法首先拟合一个包含所有自变量的线性回归模型, 然后根据偏F统计量的p值与给定的控制水平相比较. 将所有对因变量影响不显著的自变量逐个删除,直到模型中的所有自变量在给定控制水平下均显著为止. (3)逐步回归法将前向选择和后向选择结合使用.它有两个控制水平,一个控制自变量的引入,一个控制现有模型中自变量的删除.