- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
专题02算法与问题解决
【学习目标】
理解算法的基本概念和重要性:学生应能够解释算法的定义,并认识到算法在解决问题中的作用。
掌握算法的特征与要素:学生需要了解算法的五个基本特征(有穷性、可行性、确定性、输入输出),以及算法的三个核心要素(数据、运算、控制转移)。
学习不同的算法描述方法:学生应熟悉自然语言、流程图、伪代码和计算机程序设计语言等不同方式描述算法,并能根据实际问题选择适当的描述方法。【思维导图】
【知识梳理】
知识点一:数据整理
(1)数据缺失:最简单(忽略缺失值);常见(平均值、中间值、概率统计值)
(2)数据重复:分析后合并或删除
(3)异常数据:可能是没用的噪声,也可能是重要数据。
(4)逻辑错误:属性值和实际值不符。
(5)数据格式不同:数据转换
知识点二:Excel
1.公式及函数
(1)公式必须以”=”开头
(2)公式及函数
SUM(a1,a2,…,an)求和AVERAGE(a1,a2,…,an)求平均数
MIN(a1,a2,…,an)求最小值MAX(a1,a2,…,an)求最大值
单元格引用
例:在E2单元格输入:=(C2-B2)/$A2+D$2,复制公式到G4单元格,公式变为:
=(E4-D4)/$A4+F$2
常见错误提示
【题型精讲】
例11
2.排序(升序、降序)
选择区域:①选全部列②如果关键字是列A列B等,不选标题③避开合并单元格
3.筛选
①文本筛选:通配符(?表示任意一个字符。*表示任意多个字符)、包含、结尾是、开头是
②数字筛选:大于、小于、介于、自动筛选前10个(10/9/11/……个最大/最小的值)
③筛选最大前三项,筛选出的记录可能超过3项,并列项也会筛选出来
④多条件筛选:选出女生中成绩最好的三个,需要筛选‘女生’,排序选前三个,顺序可反
4.图表
(1)数据标签:设置图表上对应的各系列数据是否显示数值
(2)选定数据区域解题方法
例2
用UltraEdit软件查看“2021高三加油!”的字符内码,部分界面如图所示。
①根据图2中的X轴,确定数据区域A6:A9
②根据图2的图例,确定数据区域C2:D2(如果图例是“系列1,系列2”,则不包括C2:D2)
③根据图2图表上对应的各系列的数据,确定数据区域C2:D9
④通过对称(高平齐、长对正)确定数据区域A2
⑤总区域为A2,A6:A9,C2:D2,C2:D9
(3)图表影响因素
图表会发生变化:①图表相关单元格数据发生变化②图表中的数据参加排序、筛选
图表不会发生变化:①修改单元格格式(特别是小数位数)
知识点三:大数据处理的基本思想和架构
分治思想:一个大问题分成多个小问题
静态数据:批处理计算
举例:3年内学生的高考成绩
Hadoop架构:
①HDFS:分布式文件系统
将大规模数据以文件的形式保存,适合部署在廉价的机器上。
应用:云盘、网盘的底层
②Hbase:分布式数据库
建立在HDFS建立的基础上,采用基于列的存储方式,是谷歌BigTable的开源实现
Hbase:分布式数据库
③MapReduce:分布式并行计算模型
流数据:流计算
举例:交通路况的实时更新
软件:Twitter
图数据:图计算
举例:社交网络、传染病的传播路径等
实时处理+批处理
软件:SummingBird
好处:缩短切换时间、减少系统开销、降低使用成本
知识点四:Pandas
1.常用模块
①Numpy模块:Python中做科学计算的基础库;
②Scipy模块:增强了在高等数学、信号处理、图像处理、统计等方面的处理能力;
③Pandas模块:主要用于数据的处理和分析。
2.导入:importpandasaspd
3.数据结构:Series(一维数组:一列索引一列值)
属性:index(索引)、values(值)
将178改成188:s2[‘s02’]=188或s2[1]=188
4.数据结构:DataFrame(二维数组:一列索引多列值)
(1)属性:index(索引)、values(值)、columns(列标题)
(2)获取数值
获取第二行数据:df1[1:2]
获取‘性别’列数据:df1[‘性别’]或df1.性别
获取’性别’列第二行的数据:df1.at[1,’性别’]或df1[‘性别’][1]
筛选性别为女的数据:df1[df1[‘性别’]==‘女’]
(3)函数:见函数表
知识点五:Matplotlib模块绘图
1.导入:importmatplotlib.pyplotasplt
2.函数:见函数表
知识点六:文本数据处理
1.典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。
2.中文分词
方
您可能关注的文档
- 川教版(2024)三年级上册信息科技 1.3树立正确在线观念 教案.docx
- 川教版(2024)三年级上册信息科技 2.1在线搜索查信息 教案.docx
- 义务教育版(2024)2024年第一学期五年级信息技术教学计划.docx
- 专题03 算法的程序实现-2024-2025学年高中信息技术一轮复习(浙教版).docx
- 专题04 数据处理与应用(知识清单)-2024-2025学年高中信息技术一轮复习(浙教版).docx
- 专题05 人工智能及应用(知识清单)-2024-2025学年高中信息技术一轮复习(浙教版).docx
- 川教版(2019)七年级下册信息科技 1.1探索信息技术-信息及其特征 课件.pptx
- 川教版(2024)七年级上册信息科技 第2课 改造家庭网络 课件(共24张PPT).pptx
- 川教版(2024)七年级上册信息科技 2.改造家庭网络 教案.docx
- 第13章电路初探 苏科版物理九年级上册.docx
- 第18讲 第17课 西晋的短暂统一和北方各族的内迁.docx
- 第15讲 第14课 沟通中外文明的“丝绸之路”.docx
- 第13课时 中东 欧洲西部.doc
- 第17讲 第16 课三国鼎立.docx
- 第17讲 第16课 三国鼎立 带解析.docx
- 2024_2025年新教材高中历史课时检测9近代西方的法律与教化含解析新人教版选择性必修1.doc
- 2024_2025学年高二数学下学期期末备考试卷文含解析.docx
- 山西版2024高考政治一轮复习第二单元生产劳动与经营第5课时企业与劳动者教案.docx
- 第16讲 第15课 两汉的科技和文化 带解析.docx
- 第13课 宋元时期的科技与中外交通.docx
文档评论(0)