大数据分析方法与应用 课后习题及答案 耿秀丽.docx

大数据分析方法与应用 课后习题及答案 耿秀丽.docx

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第1章课后习题及答案

1.大数据的4V特征是什么?

Volume(体量巨大)、Variety(种类繁多)、Velocity(处理速度快)和Value(价值密度低)是大数据的4个主要特征。

2.请简述大数据处理流程。

大数据分析是一个目的明确的过程,其过程概括起来主要包括:目标确定、数据收集、数据预处理、数据挖掘、数据建模与分析、数据可视化、结果分析和报告。

3.分布式计算在大数据分析中有哪些作用?

提高计算效率、提高系统可靠性、实现更高的扩展性、降低计算成本。

4.你认为在5G时代下大数据还有哪些新应用?

(1)“大国粮仓”龙江5G数字农场(北大荒)

中国联通“大国粮仓”5G数字农场项目,基于中国联通5G网络,应用于北大荒农场,打造世界先进的5G数字农场,打通“人、地、机、物、环”生产作业全要素,贯穿“耕种管收”全环节,以生产经营管理为核心,搭建“1+1+N”架构,即1张5G核心网,完成农业生产“感联智控”;1个农业智脑,整合物联、数据、业务、AI、GIS等中台,进行统一的平台支撑和智能服务;聚焦“黑土地保护+无人化作业”形成“N”项5G智慧农业应用,激活农业发展要素资源,提高生产效率,降低生产成本,实现黑土地防治管护、无人农机智能作业等全方位创新场景,实现水、肥、药施用量节约20%以上,人力成本降低10%以上,每亩增产5-10%。通过5G赋能万亩良田,设施、装备、机械数字化、智能化改造,实现全产业链智慧农业。

(2)5G助力天津港打造智慧、绿色的世界一流港口

天津港是京津冀的海上门户,是“一带一路”的战略支点,也是中国联通在港口领域重要战略合作伙伴之一。天津联通携手天津港匠心打造5G智慧港口,采用“边生产、边改造”的建设方式,相继攻克世界性智慧港口建设诸多难题,落地了5G智能无人集卡、5G岸桥远程控制、5G智能理货、5G智能加解锁站、四大5G创新应用场景,成为全球首个获批建设的港口自动驾驶示范区、实现全球首个无人集卡场景下陆侧“一键着箱”、实现国内首家集装箱智能理货系统内外理一体化运行、建成全球首台集装箱地面智能解锁站、建成全球首个集装箱设备任务集成管理系统ETMS。

5.请举例说明生活中大数据的应用。

第2章课后习题及答案

1.总体和样本的定义?

答案:总体是具有特定属性的对象的全体,样本是某个总体的一部分。

2.区分以下数据哪些是总体,哪些是样本?

(1)从某大学6000个宿舍中随机抽查100间宿舍进行安全检查。

(2)从一批灯泡中随机挑选20个抽样检查。

(3)对某小区所有的老人进行身体检查。

答:(1)(2)是样本;(3)是总体

3.定性数据和定量数据的定义?

答:定性数据(也称为名义数据)是一种用于描述各种类别或属性的数据。它们表示不同的类型,但没有排序或量化关系。定性数据仅提供了有关事物所属类别的信息,而不提供数量或程度的度量;

定量数据是以数字表现的数据,它可以被测量、计算和比较。在研究中,定量数据常用于收集、分析和解释现象和事实。

4.截面数据和时间序列数据的定义?

答:截面数是指在同一时间点上对某个总体进行测量所得到的数据。这种数据收集方法通常是在同一时间点上进行的,因此被称为截面数据;

时间序列数据是一种按时间顺序排列的观测值的集合,这些观测值通常按照固定的时间间隔采集。

5.协方差和相关系数的定义?

答:协方差是描述两个随机变量之间关系的统计量。它用于衡量两个变量在同一时间段内的变动趋势是否同向或相反;

相关系数定量地刻画两个随机变量的相关程度。

第3章课后习题及答案

1.设SSR=36,SSE=4,n=18。

(1)计算判定系数R2并解释其意义。

(2)计算估计标准误差Se并解释其意义。

解:

(1)R2=90%表示在因变量y取值的变差中,有90%可以由x与y之间的线性关系来解释。

(2)Se=0.5表示,当用x来预测y时,平均的预测误差为0.5。

2.下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:

表3-82000年统计数据

地区

人均GDP/元

人均消费水平/元

北京

22460

7326

辽宁

11226

4490

上海

34547

11546

江西

4851

2396

河南

5444

2208

贵州

2662

1608

陕西

4549

2035

求:

(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系。

(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。

(3)求出估计的回归方程,并解释回归系数的实际意义。

(4)计算判定系数,并解释其意义。

(5)检验回归方程线性关系的显著性()。

(6)如果某地区的人均GDP为5000元,预测其人均消费水平。

(7)求人均GDP为5000元时,人均消费水平95

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档