- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
《1.3使用网页爬虫爬取网页数据》教学设计
教学内容分析
本节课是2022年电子工业出版社出版的七年级下册第一单元第3课。本节课分为三个活动:“认识网络爬虫”“编程实现网络爬虫”“熟悉网络爬虫的君子协议”三部分内容组成。学生通过小组合作探究学习逐步掌握本节课的知识点,具备一定的小组合作能力、探究能力、创新能力等,提升信息社会责任,综合提升信息素养。
教学目标及核心素养指向
1、认识网络爬虫,了解网络爬虫的概念与工作过程;(信息意识、计算思维)
2、能用mpython编程实现网络爬虫;(信息意识、计算思维、数字化学习与创新)
3、了解网络爬虫“君子协议”的概念,掌握网络爬虫的“君子协议”规定和注意事项。(信息意识、计算思维、数字化学习与创新、信息社会责任)
教学重难点
教学重点:
1、认识网络爬虫,了解网络爬虫的概念与工作过程
设计原因:了解网络爬虫的原理是本节课的主要内容,知识点的渗透需要作为重点内容。
教学难点:
1、能用mpython编程实现网络爬虫,了解网络爬虫“君子协议”的概念,掌握网络爬虫的“君子协议”规定和注意事项。
设计原因:在知道网络爬虫的基础上进行操作对学生来说比较困难,所以此部分对学生来说难度较高,应作为难点内容。
教学过程
1、情境导入(3分钟)
教师活动
学生活动
情境引入:为了使制作出的网页更加吸引人,我们决定多找一些我国科技领域重大创新成果的相关图片或文本来丰富网页。但是网络上相关信息太多,如何快速获取这些信息呢?
学生听教师引导生活中的案例,学生讨论,回答提问
设计意图:
激发学生对网络爬虫的学习兴趣并快速进入学习状态。
2、新知讲授(35分钟)
教师活动
学生活动
活动1:认识网络爬虫
播放微视频:什么是网络爬虫
一般情况下,我们是通过在网页上搜索、复制、粘贴来获取需要的数据,但是如果需要获取的数据量特别大,这种方式就显得费时费力。我们可以通过编制网络爬虫程序(以下简称为网络爬虫)来实现对数据的自动化采集。
网络爬虫注意事项:网络爬虫就是模拟我们浏览网页的行为,再将站点返回的HTML代码放到本地,保存并使用。
原则上只要浏览器能做的事情,爬虫都能做!
活动2:编程实现网络爬虫
使用Python语言可以方便地编写网络爬虫的程序,获取网页中的信息。
加载网络爬虫程序需要的模块
上述程序中用到了Python语言的两个扩展模块,下面介绍安装扩展模块的方法。
在mPython的Python编程界面中单击上方的“添加库”,再单击“PIP安装”,打开一个对话框,在对话框中输入扩展库名称“requests”,如下图所示。单击“安装”按钮,若出现“Successfullyinstalled”,就表示requests模块安装好了,然后可以按同样的方法安装Ixml模块。
获取网页中指定位置的XPath路径地址
XPath(XMLPathLanguage)是一种小型查询语言,用于在XML(可扩展标记语言)文档中查找信息。
可以采用以下方法获取网页中指定位置的XPath地址:
(1)使用浏览器打开网页,按F12键进入开发者模式,查看网页源代码;
(2)单击“选取页面中的元素”按钮,选中要抓取的网页内容,对应的,开发者窗格中会有一段高亮显示的代码;
(3)将鼠标指针指向高亮代码部分,并在其上面右击;
(4)打开快捷菜单,执行“复制”→“复制XPath”命令,如下图所示,就可以把选中内容对应的XPath地址复制到操作系统的剪贴板上。
活动3:熟悉网络爬虫的君子协议
新知讲授
为了规范网络爬虫的使用,一些搜索引擎从业者和网站站长定下了“君子协议”——Robots协议(爬虫协议、机器人协议),其全称是网络爬虫排除标准。
协议规定:网站管理员在网站域名的根目录下存放一个Robots.txt文本文件,文件里指定该网站的哪些内容可以爬取,哪些内容不可以爬取。使用网络爬虫程序采集网站信息前,要先阅读该网站的这个文件,根据文件的规则来采集网站的数据。
我们在使用网络爬虫爬取网页数据时,要严格遵守网站的Robots协议,在爬取要使用的信息前,应先进行审查,如发现用户的个人信息或商业秘密,应及时停止爬取并删除已爬取的信息。
学生通过教师的讲解,以小组合作的方式,开展探讨交流,完成任务
活动1:认识网络爬虫
学生听讲
活动2:编程实现网络爬虫
学生听讲
活动3:熟悉网络爬虫的君子协议
小组合作交流
在使用网络爬虫爬取网络信息时,可以随便爬取吗?爬取到的信息都可以随便使用吗?结合使用网络爬虫的体验,尝试制订合理的网络爬虫协议,并写在导学案中。
小组合作项目实施
1.使用Python编程爬取我国科技领域的重大创新成果,选取你认为合适的内容,并进行适当编辑,放入“科技创新自主可控”的网页中。
2.结合制作网页、爬取网页信息的过程,归纳总
您可能关注的文档
- 电子工业社版(2022)七年级信息科技下册 1.1编辑网页信息 课件.pptx
- 电子工业社版(2022)七年级信息科技下册 1.1编辑网页信息 教学设计.docx
- 电子工业社版(2022)七年级信息科技下册 1.2网页中的信息编码 教学设计.docx
- 电子工业社版(2022)七年级信息科技下册 1.2网页中的信息编码 课件.pptx
- 电子工业社版(2022)七年级信息科技下册 1.3使用网页爬虫爬取网页数据 课件.pptx
- 电子工业社版(2022)七年级信息科技下册 2.1初识云计算和云存储 教学设计.docx
- 电子工业社版(2022)七年级信息科技下册 2.1初识云计算和云存储 课件.pptx
- 电子工业社版(2022)七年级信息科技下册 2.2在线协作 教学设计.docx
- 电子工业社版(2022)七年级信息科技下册 2.2在线协作 课件.pptx
- 电子工业社版(2022)七年级信息科技下册 2.3网络新媒体 教学设计.docx
文档评论(0)