Python网络爬虫技术 配套课件.pptx

  1. 1、本文档共256页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据,成就未来Python网络爬虫技术配套课件 2022/2/10目 录 1 第1章 Python 爬虫环境与爬虫介绍 2 第2章网页前端基础3 第3章简单静态网页爬取 4 第4章常规动态网页爬取5 第5章模拟登录 6 第6章终端协议分析7 第7章 Scrapy爬虫大数据挖掘专家Python爬虫环境与爬虫简介2021/9/14目录1 认识爬虫乙 认识反爬虫3 配置Python 爬虫环境4 小结爬虫的概念网络爬虫也被称为网络蜘蛛、网络机器人,是一个自动下载网页的计算机程序或自动化脚本。网络爬虫就像一只蜘蛛一样在互联网上沿着URL 的丝线爬行,下载每一个URL 所指向的网页,分析页面内容爬虫的原理1.通用网络爬虫通用网络爬虫又称为全网爬虫,其爬行对象由一批种子URL 扩充至整个Web, 该类爬虫比较适合为搜索引擎搜索广泛的主题,主要由搜索引擎或大型Web 服务提供商使用。深度优先策略: 按照深度由低到高的顺序,依次访问下一级网页链接,直到无法再深入为止。广度优先策略: 按照网页内容目录层次的深浅来爬行,优先爬取较浅层次的页面。当同一层中的页面全部爬行完毕后,爬虫再深入下一层。 爬虫的原理2. 聚焦网络爬虫聚焦网络爬虫又被称作主题网络爬虫,其最大的特点是只选择性地爬行与预设的主题相关的页面。基于内容评价的爬行策略: 该种策略将用户输入的查询词作为主题,包含查询词的页面被视为与主题相关的页面。基于链接结构评价的爬行策略: 该种策略将包含很多结构信息的半结构化文档Web 页面用来评价链接的重要性,其中一种广泛使用的算法为PageRank 算法。基于增强学习的爬行策略: 该种策略将增强学习引入聚焦爬虫,利用贝叶斯分类器对超链接进行分类,计算出每个链接的重要性,按照重要性决定链接的访问顺序。基于语境图的爬行策略 :该种策略通过建立语境图学习网页之间的相关度,计算当前页面到相关页面的距离,距离越近的页面中的链接优先访问。爬虫的原理3. 增量式网络爬虫增量式网络爬虫只对已下载网页采取增量式更新或只爬行新产生的及已经发生变化的网页,需要通过重新访问网页对本地页面进行更新,从而保持本地集中存储的页面为最新页面。常用的更新方法如下。统一更新法: 以相同的频率访问所有网页,不受网页本身的改变频率的影响。个体更新法: 根据个体网页的改变频率来决定重新访问各页面的频率。基于分类的更新法: 爬虫按照网页变化频率分为更新较快和更新较慢的网页类别,分别设定不同的频率来访问这两类网页。6爬虫的原理4. 深层网络爬虫Web 页面按照存在方式可以分为表层页面和深层页面两类。表层页面指以传统搜索引擎可以索引到的页面,深层页面为大部分内容无法通过静态链接获取,隐藏在搜索表单后的,需要用户提交关键词后才能获得的Web 页 面。深层爬虫的核心部分为表单填写,包含以下两种类型。基于领域知识的表单填写: 该种方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。基于网页结构分析的表单填写 :这种方法一般无领域知识或仅有有限的领域知识,将HTML网页表示为DOM树形式,将表单区分为单属性表单和多属性表单,分别进行处理,从中提取表单各字段值。爬虫的合法性与robot.txt协议1. 爬虫的合法性目前,多数网站允许将爬虫爬取的数据用于个人使用或者科学研究。但如果将爬取的数据用于其他用途,尤其是转载或者商业用途,严重的将会触犯法律或者引起民事纠纷。以下两种数据是不能爬取的,更不能用于商业用途。个人隐私数据: 如姓名、手机号码、年龄、血型、婚姻情况等,爬取此类数据将会触犯个人信息保护法。明确禁止他人访问的数据: 例如用户设置了账号密码等权限控制,进行了加密的内容。还需注意版权相关问题,有作者署名的受版权保护的内容不允许爬取后随意转载或用于商业用途。8爬虫的合法性与robot.txt 协议2. robot.txt协议当使用一个爬虫爬取一个网站的数据时,需要遵守网站所有者针对所有爬虫所制定的协议,这便是robot.txt协议。该协议通常存放在网站根目录下,里面规定了此网站那些内容可以被爬虫获取,及哪些网页是不允许爬虫获取的。目录认识爬虫认识反爬虫配置Python 爬虫环境小结13410网站反爬虫的目的与手段1.通过User-Agent 校验反爬浏览器在发送请求的时候,会附带一部分浏览器及当前系统环境的参数给服务器,服务器会通过User-Agent的值来区分不同的浏览器。XHeadersPreview Response TimingGeneralRequest ReferrerURL: /js/os.jsPolicy: unsafe-ur1Y Request HeadersProvisional headers are shownReferer:

文档评论(0)

165720323137e88 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档