- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
《大数据导论》简答题与答案--第1页
《大数据导论》简答题与答案
1.人类社会的数据产生方式经历了哪些阶段?简述各阶段的特点。
人类历史上从未有哪个时代和今天一样产生如此海量的数据,人类社会的数据产生方式大致
经历了3个阶段:运营式系统、用户原创内容阶段、感知式系统阶段。
(1)运营式系统:
数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,
作为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人
的医疗记录等。人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始,
这些数据规范、有秩序、强调数据的一致性,且这些数据的产生方式是被动的。
(2)用户原创内容阶段:
互联网的诞生促使人类社会数据量出现第二次大的飞跃,但真正的数据爆发产生于
Web2.0时代,其重要标志就是用户原创内容。以博客、微博为代表的新型社交网络的出现
和快速发展,使得用户产生数据的意愿更加强烈;新型移动设备出现,易携带、全天候接入
网络的移动设备使得人员在网上发现自己意见的途径更为便捷
数据结构复杂,无秩序,不强调数据的一致性或只强调弱一致性,这些数据的产生方式
是主动的。
(3)感知式系统:
人类社会数据量第三次大的飞跃最终导致了大数据的产生,这次飞跃的根本原因在于感
知式系统的广泛使用。微小带着处理功能的传感器设备广泛布置于社会的各个角落,通过这
些设备对整个社会的运转进行监控,这些设备会源源不断地产生新数据,这些数据的产生方
式是自动的,数据呈现多源异构、分布广泛、动态演化等。
简单来说,数据产生经历了被动、主动和自动三个阶段,这些被动、主动和自动的数据
共同构成了大数据的数据来源。
2.大数据处理的关键技术都有哪些?并做简要描述。
大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算处理、数据分析
和挖掘、数据可视化展示等。
1).数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、
传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结
构化的海量数据。
2).数据预处理是数据分析和挖掘的基础,是将接收数据进行抽取、清洗、转换、归约等并
最终加载到数据存储的过程。
3).数据存储,需要将采集到的数据进行存储管理,建立相应的数据库。
4).数据计算处理。单台计算机必然无法完成海量的数据处理工作,需要分布式架构的计算
《大数据导论》简答题与答案--第1页
《大数据导论》简答题与答案--第2页
平台。
5).数据分析与挖掘,是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼
有价值信息的一个过程。
6).大数据可视化技术,可以提供更为清晰直观的数据表现形式,将错综复杂的数据和数据
之间的关系,通过图片、映射关系或表格,以简单、友好、易用的图形化、智能化的形式呈
现给用户,供其分析使用。
3.简述网络大数据的一般采集过程。
大数据采集主要包括:系统日志采集、网络数据采集、数据库采集和其他数据采集四种。
网络数据采集常用的是通过网络爬虫或网站公开API等方式从网站上获取数据信息。该
方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化
的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
网络大数据的一般采集过程:先在URL队列中写入一个或多个目标链接作为爬虫爬取信
息的起点;爬虫从URL队列中读取链接,并访问该网站;从该网站爬取内容;从网页内容中
抽取出目标数据和所有URL链接;从数据库中读取已经抓取过内容的网页地址;过滤URL,
将当前队列中的URL和已
您可能关注的文档
最近下载
- 山东省济宁市嘉祥县2022-2023学年九年级上学期10月月考化学试卷含答案.docx VIP
- 2024年中国华能集团限公司校园招聘【高频考点汇总500题】模拟卷及参考答案详解.docx
- 六年级上册数学人教版《圆》单元整体教学设计(课件).pptx
- 17J008 挡土墙(重力式、衡重式、悬臂式)(最新).pdf
- 山东省济宁市嘉祥县第四中学2020-2021学年九年级上学期10月月考化学试题.docx VIP
- 柠檬酸固体废弃物――石膏渣的综合利用.pdf
- 氧气吸入的并发症及预防.pptx VIP
- 继发性甲状旁腺功能亢进的护理PPT【27页】.pptx VIP
- 人生的短暂讲章.pptx
- 时间都去哪了钢琴谱五线谱.pdf
文档评论(0)