Python网络爬虫基础教程教学设计.docVIP

下载本文档

0
0
约2.02万字
约 27页
2024-07-02 发布于安徽
举报
版权申诉

Python网络爬虫基础教程教学设计.doc

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

博学谷——让IT教学更简单，让IT学习更有效

PAGE12

PAGE4

黑马程序员

《Python网络爬虫基础教程》

教学设计

课程名称：___________________

授课年级：___________________

授课学期：___________________

教师姓名：___________________

年月

课题名称

第1章认识网络爬虫

计划课时

2课时

教学引入

随着网络的蓬勃发展，万维网成为大量信息的载体，如何有效提取并利用这些信息成为一个巨大的挑战。网络爬虫作为一种自动采集数据技术，它凭借自身强大的自动提取网页数据的能力，成为当下万维网收集数据高效灵活的解决方案之一。本章主要对网络爬虫的基础知识进行详细地讲解。

教学目标

使学生熟悉网络爬虫的概念及分类，能够归纳通用网络爬虫和聚焦网络爬虫的区别

使学生了解网络爬虫的应用场景，能够列举至少3个网络爬虫的应用场景

使学生熟悉网络爬虫的Robots协议，能够说明robots.txt文件中每个选项的含义

使学生熟悉防网络爬虫的应对策略，能够列举至少3个应对防网络爬虫的策略

使学生掌握网络爬虫的工作原理，能够定义通用爬虫和聚焦爬虫的工作原理

使学生熟悉网络爬虫抓取网页的流程，能够归纳网络爬虫抓取网页的完整流程

使学生了解网络爬虫的实现技术，能够说出使用Python实现网络爬虫有哪些优势

使学生熟悉网络爬虫的实现流程，能够归纳使用Python实现网络爬虫的流程

教学重点

网络爬虫的工作原理

网络爬虫抓取网页的流程

Python实现网络爬虫的流程

教学难点

无

教学方式

课堂教学以PPT讲授为主，并结合多媒体进行教学

教

学

过

程

第一课时（什么是网络爬虫、网络爬虫的应用场景、Robots协议、防爬虫应对策略）

教师通过直接导入的方式导入新课

教师首先讲解网络爬虫的概念，其次讲解网络爬虫历经几十年的发展，衍生出的爬虫类型，了解了什么是网络爬虫，然后讲解网络爬虫的应用场景，最后讲解Robots协议以及防爬虫对应策略。

二、新课讲解

知识点1-什么是网络爬虫

教师通过PPT的方式讲解什么是网络爬虫。

（1）熟悉网络爬虫的概念。

（2）熟悉网络爬虫的分类。

教师通过PPT的方式讲解网络爬虫的概念。

网络爬虫（WebCrawler）又称网络蜘蛛、网络机器人，它是一种按照一定规则，自动浏览万维网的程序或脚本。通俗地讲，网络爬虫就是一个模拟真人浏览万维网行为的程序，这个程序可以代替真人自动请求万维网，并接收从万维网返回的数据。与真人浏览互联网相比，网络爬虫能够获取的信息量更大，效率也更高。

教师通过PPT的方式讲解网络爬虫的分类。

（1）通用网络爬虫（GeneralPurposeWebCrawler）又称全网爬虫（ScalableWebCrawler），是指访问全互联网资源的网络爬虫。通用网络爬虫是互联网早期出现的传统网络爬虫，它是捜索引擎（如百度、谷歌、雅虎等）抓取系统的重要组成部分，主要用于将互联网中的网页下载到本地，形成一个互联网内容的镜像备份。

（2）聚焦网络爬虫（FocusedCrawler）又称主题网络爬虫（TopicalCrawler），是指选择性地访问那些与预先定义好的主题相关网页的网络爬虫，它根据预先定义好的目标，有选择性地访问与目标主题相关的网页，获取所需要的数据。

（3）增量式网络爬虫（IncrementalWebCrawler）是指对已下载的网页采取增量式更新，只爬行新产生或者已经发生变化的网页的爬虫。

（4）深层网络爬虫（DeepWebCrawler）是指爬行深层网页的网络爬虫，它要爬行的网页层次比较深，需要通过一定的附加策略才能够自动爬行，实现难度稍微大一些。

知识点2-网络爬虫的应用场景

教师通过PPT的方式讲解网络爬虫的应用场景。

随着互联网信息的“爆炸”，网络爬虫渐渐为人们所熟知，并被应用到社会生活的众多领域。作为一种自动采集网页数据的技术，很多人其实并不清楚网络爬虫具体能应用到什么场景。事实上，大多数依赖数据支撑的应用场景都离不开网络爬虫，包括搜索引擎、舆情分析与监测、聚合平台、出行类软件等。

知识点3-Robots协议

教师通过PPT的方式讲解Robots协议。

（1）熟悉什么是robots协议。

Robots协议又称爬虫协议，它是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息，确保网站用户的个人信息和隐私不受侵犯。为了让网络爬虫了解网站的访问范围，网站管理员通常会在网站的根目录下放置一个符合Robots协议的robots.txt文件，通过这个文件告知网络爬虫在抓取该网站时存在哪些限制，哪些网页是允许被抓取的，哪些网页是禁止被抓取的。

知识点4-防爬

您可能关注的文档

文档评论（0）

139****1983 + 关注: 实名认证

文档贡献者

副教授、一级建造师持证人

一线教师。

咨询Ta 进入空间

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

更多 >

Python网络爬虫基础教程教学设计.docVIP