数据分析与数据挖掘-习题及答案【ch06】回归分析.docx

下载文档

10
0
约9.8千字
约 17页
2023-10-02 发布于山东
举报
版权申诉
保障服务

数据分析与数据挖掘-习题及答案【ch06】回归分析.docx

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第6章回归分析 1. 简述线性回归分析的假设前提，并给出设置这些假设的原因。变量总体服从正态分布、个体间随机误差相互独立、因变量与自变量存在线性 2. 回归建模前一般绘制自变量与因变量的散点图，请解释绘制这些图形的含义。对表6.3 中数据，分别绘制专卖店的面积、距地铁口距离与销售额的散点图。略。 3. 回归分析前有时也绘制自变量的散点图矩阵，请简述其作用。散点图(Scatter plot)主要用于展示两个变量 X 和 Y 的相关性，也常在立体空间中用散点图分析三个变量的相关性。当变量较多时，可以通过两两变量绘制散点图构成散点图矩阵(又称散布图)。散点图的绘制方法：将X 和 Y 的配对点(X,Y) 绘制在笛卡儿坐标系中。线性相关是指 Y 随 X 呈线性函数关系，是最常用的一种相关关系。图3.2(a)和图3.2(b)展示的是线性相关，图3.2(c)显示的是线性不相关。 4. 假设8个样例的数据集如下，其中， x1和x? 是解释变量，y 是被解释变量。借助软件(如 SPSS 或 C++配套库)进行线性回归分析。 X1 1.9 2.9 2.1 3.6 4.5 3.8 4.7 4.1 X2 8.2 8.3 8.7 9.7 9.3 9.6 9.2 9.6 X? X 3.9 4.8 4.8 4.6 4.7 4.3 4.5 3.8 y 9.1 9.6 10.5 11 10.8 11.2 10.6 9.7 (1)请计算各变量之间的相关系数，并绘制散点图。 (2)建立多元线性回归方程。 (3)进行参数检验，按显著性水平0.05,判别参数的显著性。 (4)如果存在不显著的解释变量，分析其原因。本题采用剔除后再建模。 (5)进行回归模型检验，并根据判定系数和修正判定系数分析模型拟合精度。 (6)进行残差分析，判别异常样例并进行DW 检验。 (7)请依据回归结果对回归系数进行解释。 (8)给定新样例“x?=3.5,x?=8.8,x?=4.6”,预测y 值，给出置信度95%的预测区间。略。 5. 简要解释线性回归中R2 的含义和修正R2 的含义。在统计学中对变量进行线行回归分析，采用最小二乘法进行参数估计时，R平方为回归平方和与总离差平方和的比值，表示总离差平方和中可以由回归平方和解释的比例，这一比例越大越好，模型越精确，回归效果越显著。R平方介于0~1之间，越接近1，回归拟合效果越好，一般认为超过0.8的模型拟合优度比较高。 6. 说明标准化和非标准化回归系数有什么区别。非标准化系数与标准化系数的主要区别有： 1. 标准化是去除量纲的 2. 标准化回归系数体现了变量间的相对重要性，而且与自变量的离散程度有关，如果其波动程度较大，那么就会显得比较重要；否则，就显得不太重要。标准化回归系数正是用于检测这种重要性的。 3. 标准化回归系数的比较结果，只适用于某一特定环境，而不是绝对正确的，它可能因时因地而变化。因而称标准化的系数是相对的，而非标准化的系数则是绝对的。当需要比较多个自变量对因变量相对作用大小时，可采用标准化回归系数，当只是想解释自变量对因变量的作用时，可采用非标准化的回归系数。标准化的常数项是没有值的，因此，标准化的回归系数不能用于回归方程。 7. 对于第6.2.4节中的残差序列的随机性检验：①绘制残差顺序图，观察残差的分布；②绘制残差的Lag-1时滞图，观察是否存在自相关性；③结合DW 检验，说明观察残差顺序图和Lag-1时滞图的要点。略。 8. 如果残差序列存在自相关性，说明什么问题?一般应如何进一步分析? 因为有遗漏变量。这个变量成为了联系残差之间的重要中介，所以表现出自相关性。模型函数形式设定有误。比如说把一个非线性形式的方程用线性表示，或者说明明对数线性模型，用了线性方程直接描述。系统本身的惯性问题。由于系统惯性的原因使得相邻两期之间存在自相关。 9. 第7章中给出多重共线性检验，这里先分析一下，如果多个变量存在较强的多重共线性，将会对模型的解释和预测带来哪些影响? 定义:回归分析中度量依变量对自变量的相依程度的指标，它反映当自变量每变化一个单位时，因变量所期望的变化量。在回归方程中表示自变量x对因变量y影响大小的参数。回归系数越大表示x对y影响越大，正回归系数表示y随x增大而增大，负回归系数表示y随x增大而减小。回归方程式Y=bX+a中之斜率b,称为回归系数，表X每变动一-单位平均而言, Y将变动b单位。如果模型中存在多重共线性，这意味着一些自变量是相关的，简单的说一个变量的变化与另-个变量的变化相关。相关性越强，在不改变另一个输入的情况下解释每次输入变化的输出变化就越困难。所以会降低估计系数的精度或降低模型的性能。 10. 在残差分析中，常考虑剔除异常值，分析为什么通常会考虑剔除异常

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

数据分析与数据挖掘-习题及答案【ch06】回归分析.docx