数据分析与数据挖掘-习题及答案 【ch06】回归分析.docx

数据分析与数据挖掘-习题及答案 【ch06】回归分析.docx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章 回归分析 1. 简述线性回归分析的假设前提,并给出设置这些假设的原因。 变量总体服从正态分布、个体间随机误差相互独立、因变量与自变量存在线性 2. 回归建模前一般绘制自变量与因变量的散点图,请解释绘制这些图形的含义。对表6.3 中数据, 分别绘制专卖店的面积、距地铁口距离与销售额的散点图。 略。 3. 回归分析前有时也绘制自变量的散点图矩阵,请简述其作用。 散点图(Scatter plot)主要用于展示两个变量 X 和 Y 的相关性,也常在立体空间中用散点图 分析三个变量的相关性。当变量较多时,可以通过两两变量绘制散点图构成散点图矩阵(又称散 布图)。散点图的绘制方法:将X 和 Y 的配对点(X,Y) 绘制在笛卡儿坐标系中。线性相关是指 Y 随 X 呈线性函数关系,是最常用的一种相关关系。图3.2(a)和图3.2(b)展示的是线性相关, 图3.2(c)显示的是线性不相关。 4. 假设8个样例的数据集如下,其中, x1和x? 是解释变量,y 是被解释变量。借助软件(如 SPSS 或 C++配套库)进行线性回归分析。 X1 1.9 2.9 2.1 3.6 4.5 3.8 4.7 4.1 X2 8.2 8.3 8.7 9.7 9.3 9.6 9.2 9.6 X? X 3.9 4.8 4.8 4.6 4.7 4.3 4.5 3.8 y 9.1 9.6 10.5 11 10.8 11.2 10.6 9.7 (1)请计算各变量之间的相关系数,并绘制散点图。 (2)建立多元线性回归方程。 (3)进行参数检验,按显著性水平0.05,判别参数的显著性。 (4)如果存在不显著的解释变量,分析其原因。本题采用剔除后再建模。 (5)进行回归模型检验,并根据判定系数和修正判定系数分析模型拟合精度。 (6)进行残差分析,判别异常样例并进行DW 检验。 (7)请依据回归结果对回归系数进行解释。 (8)给定新样例“x?=3.5,x?=8.8,x?=4.6”,预测y 值,给出置信度95%的预测区间。 略。 5. 简要解释线性回归中R2 的含义和修正R2 的含义。 在统计学中对变量进行线行回归分析,采用最小二乘法进行参数估计时,R平方为回归平方和与总离差平方和的比值,表示总离差平方和中可以由回归平方和解释的比例,这一比例越大越好,模型越精确,回归效果越显著。R平方介于0~1之间,越接近1,回归拟合效果越好,一般认为超过0.8的模型拟合优度比较高。 6. 说明标准化和非标准化回归系数有什么区别。 非标准化系数与标准化系数的主要区别有: 1. 标准化是去除量纲的 2. 标准化回归系数体现了变量间的相对重要性,而且与自变量的离散程度有关,如果其波动程度较大,那么就会显得比较重要;否则,就显得不太重要。标准化回归系数正是用于检测这种重 要性的。 3. 标准化回归系数的比较结果,只适用于某一特定环境,而不是绝对正确的,它可能因时因地 而变化。因而称标准化的系数是相对的,而非标准化的系数则是绝对的。 当需要比较多个自变量对因变量相对作用大小时,可采用标准化回归系数,当只是想解释自变量 对因变量的作用时,可采用非标准化的回归系数。 标准化的常数项是没有值的,因此,标准化的回归系数不能用于回归方程。 7. 对于第6.2.4节中的残差序列的随机性检验:①绘制残差顺序图,观察残差的分布;②绘制残差的Lag-1时滞图,观察是否存在自相关性;③结合DW 检验,说明观察残差顺序图和Lag-1时滞图的 要点。 略。 8. 如果残差序列存在自相关性,说明什么问题?一般应如何进一步分析? 因为有遗漏变量。这个变量成为了联系残差之间的重要中介,所以表现出自相关性。 模型函数形式设定有误。比如说把一个非线性形式的方程用线性表示,或者说明明对数线性模型,用了线性方程直接描述。 系统本身的惯性问题。由于系统惯性的原因使得相邻两期之间存在自相关。 9. 第7章中给出多重共线性检验,这里先分析一下,如果多个变量存在较强的多重共线性,将会对模型的解释和预测带来哪些影响? 定义:回归分析中度量依变量对自变量的相依程度的指标,它反映当自变量每变化一个单位时,因变量所期望的变化量。在回归方程中表示自变量x对因变量y影响大小的参数。回归系数越大表示x对y影响越大,正回归系数表示y随x增大而增大,负回归系数表示y随x增大而减小。回归方程式Y=bX+a中之斜率b,称为回归系数,表X每变动一-单位 平均而言, Y将变动b单位。如果模型中存在多重共线性,这意味着一些自变量是相关的, 简单的说一个变量的变化与另-个变量的变化相关。相关性越强,在不改变另一个输入的情况 下解释每次输入变化的输出变化就越困难。所以会降低估计系数的精度或降低模型的性能。 10. 在残差分析中,常考虑剔除异常值,分析为什么通常会考虑剔除异常

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档