- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
粤教版信息技术必修一《数据与计算》高二学业水平考试复习
一【知识结构体系】第五章 数据处理与可视化
二【知识梳理】一、认识大数据(一)大数据的概念大数据:无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(二)大数据的特征1.从互联网产生大数据的角度来看(具有“4V”特征):大量(Volume),多样(Variety)低价值密度(Value),高速(Velocity)。2.从互联网思维的角度来看:样本渐趋于总体,精确让位于模糊,相关性重于因果3.从大数据存储与计算的角度来看:分布式存储,分布式并行计算。 (三)大数据的影响1.大数据使人们日常生活更为便捷:方便支付、方便出行、方便购物与产品推荐、方便看病与诊病。2.大数据对人们日常生活产生的负面影响:个人信息泄露、信息伤害与诈骗。
二【知识梳理】二、数据的采集(一)数据采集的方法与工具1.系统日志采集法:监视系统中发生的事情检查错误发生的原因寻找攻击时攻击者留下的痕迹2.网络数据采集法:网络爬虫:从初始网页的URL(统一资源定位器)获取对应的数据网络公开API补充注意:Python网络数据采集程序使用扩展库时导入模块的方法:import module 关键字 模块名from module import name 关键字 模块名 关键字 方法名3.其他数据采集法。
二【知识梳理】拓展:Python网络数据采集程序使用的扩展库(1)NumPy(NumericalPython)是构建科学计算最基础的软件库;(2)SciPy是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块;(3)Pandas是一个Python包,旨在通过标记(labeled)和关系(relational)数据进行工作;(4)Matplotlib是Python的一个2D绘图库。
二【知识梳理】(二)数据的存储 1.本地存储:把数据存在本地内部2.云存储:把数据放在第三方公共或者私有的“云端”存储分布式文件存储Nosql数据库存储(三)数据的保护1.数据安全保护技术:拷贝、备份、复制、镜像、持续备份,加密…2.数据的隐私保护(1)技术手段数据收集时:精度处理数据共享时:访问控制数据发布时:人工干扰数据分析时:匿名处理(2)提高自身意识(3)进行道德和法律约束
二【知识梳理】三、数据的分析 常见数据分析方法:特征探索,关联分析,聚类与分类,建立模型,模型评价(一)特征探索 特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。 (二)关联分析关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。(三)聚类分析 聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。 K-平均算法是一种经典的自下而上的聚类分析方法。(四)数据分类 数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。 贝叶斯分类技术在众多分类技术中占有重要地位。
二【知识梳理】四、数据的可视化1. 数据可视化表达方式(见右边表5-5)
二【知识梳理】2. 数据可视化工具 Python语言嵌入了大量数据可视化的工具,如绘图工具模块Matplotlib、Seaborn和Bokeh等。(1)Seaborn主要关注统计模型的可视化。Seaborn基于且高度依赖于Matplotlib。(2)Bokeh也是一个很好的可视化库,可实现交互式可视化。与其他库相反,Bokeh是独立于Matplotlib的。Bokeh的重点在其交互性,且是通过浏览器以数据驱动文档的风格呈现。Matplotlib 是一个?Python?的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。
一起向未来,加油!
您可能关注的文档
- 高中信息技术粤教版课件:认识智能停车场中的数据处理体验数据处理的方法和工具.pptx
- 高中信息技术粤教版课件:人工智能的产生与发展.pptx
- 高中信息技术粤教版课件:课件4-1程序设计语言的基础知识第二课时.pptx
- 高中信息技术粤教版课件:进制与进制转换课堂作业.pptx
- 高中信息技术粤教版课件:黄焱琳精品课《4-4-3循环嵌套》1020.pptx
- 高中信息技术粤教版课件:高中信息技术粤教版2019必修14-2顺序结构.pptx
- 高中信息技术粤教版课件:调查中学生移动学习现状经历数据处理的一般过程.pptx
- 高中信息技术粤教版课件:第一章数据与信息20201-9-3定稿.pptx
- 高中信息技术粤教版课件:第一章数据与信息2021课件.pptx
- 高中信息技术粤教版课件:第五章信息系统的安全风险防范课件.pptx
- 中国国家标准 GB/T 32800.6-2023手持式非电类动力工具 安全要求 第6部分:螺纹紧固件用装配动力工具.pdf
- 《GB/T 32800.6-2023手持式非电类动力工具 安全要求 第6部分:螺纹紧固件用装配动力工具》.pdf
- 中国国家标准 GB/T 20656-2023石油天然气工业 新套管、油管和钻杆现场检验.pdf
- 《GB/T 20656-2023石油天然气工业 新套管、油管和钻杆现场检验》.pdf
- GB/T 20656-2023石油天然气工业 新套管、油管和钻杆现场检验.pdf
- GB/T 8564-2023水轮发电机组安装技术规范.pdf
- 《GB/T 4960.2-2023核科学技术术语 第2部分:裂变反应堆》.pdf
- GB/Z 6113.404-2023无线电骚扰和抗扰度测量设备和测量方法规范 第4-4部分:不确定度、统计学和限值建模 投诉的统计和保护.pdf
- 《GB/Z 6113.404-2023无线电骚扰和抗扰度测量设备和测量方法规范 第4-4部分:不确定度、统计学和限值建模 投诉的统计和保护》.pdf
- 中国国家标准 GB/Z 6113.404-2023无线电骚扰和抗扰度测量设备和测量方法规范 第4-4部分:不确定度、统计学和限值建模 投诉的统计和保护.pdf
1亿VIP精品文档
相关文档
最近下载
- 2023年11月中共深圳市光明区委宣传部公开招考5名工作人员笔试历年高频考点(难、易错点)附答案详解.docx VIP
- Investments , 11e ,TestBank投资学 第11版 习题库 课后习题答案.docx
- 2023年广东中共深圳市光明区委宣传部招聘笔试参考题库附带答案详解.pdf VIP
- 2023年普陀区中心医院护士招聘笔试高频试题摘选含答案解析.docx
- 基于单片机的电子万年历的设计.doc
- 重庆兴农融资担保集团有限公司招聘笔试题库2023.pdf
- 入党志愿书电子版-2004年制.docx VIP
- 入党志愿书-打印--电子版--A3A4双面.docx VIP
- 《义务教育英语课程标准(2022年版)》测试题(10套含答案).docx
- 入党志愿书表格(电子版空白表格)及入党志愿书(模板_B5打印).doc VIP
文档评论(0)