基于Python的网络爬虫设计与实现.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Python的网络爬虫设计与实现 温佐承,侯帅 (四川旅游学院,成都 610100) 摘 要院 科技时代的进步,互联网中存在着大量的数据,采集有价值的数据进行分析是大数据时代最 重要的部分。通过爬虫程序获取数据是一个快速有效的方式。介绍了Python爬虫爬取网络中不同数据, 以及如何应对一些反爬虫技术。 ; 关键词院数据 Python爬虫 1 概述 空间要求较高遥 随着互联网的快速发展袁 在信息网络中存在着海量 聚焦型又称为主题网络爬虫袁 这是一种具有条件性 的数据遥 而人们需要对互联网中的有价值的数据进行快 的爬虫袁 只采集对用户有用的信息袁 在空间和时间上都 速的提取袁 用来满足自身的不断发展袁 人工采集数据方 大大提升了效率袁对特定领域感兴趣的用户比较习惯用 式不仅速度慢效率低袁 并且会出现许许多多的错误问 聚焦网络爬虫遥 题遥 介绍通过Python爬虫技术可以实现对静态网页和 增量型网络爬虫袁 它只采集每一次新产生的内容袁 动态网页进行关键信息的提取袁并且对数据进行进一步 通过不断进行的叠加袁从而完成数据的采集工作袁此类 的处理与分析遥 型爬虫最适合于普通开发者遥 2 网络爬虫相关技术 DeepWeb型爬虫袁 网站页面通常可分为深层和表 网络爬虫涉及到的内容十分宽泛袁 其中包括数据类 层袁 然而在深度网络爬虫中袁 最重要的地方就是表单的 型尧 程序尧 网页结构尧 接口数据等各方面的知识袁并且 填写部分遥 需要对这些知识有较好的基础遥 以下主要介绍一些基础 此外袁 Python在爬虫方面又有许多很实用的框架遥 性并且好理解的内容遥 仅仅只是利用基础的Python库而进行数据爬取袁 在效 2.1 网络爬虫 率方面往往相较于框架而言较低袁 而且就Requests来 网络爬虫袁 又称为爬虫尧 信息采集技术袁 是一种可 说袁 对于新手来说上手十分简单袁 但是经常会造成IO 以抓取互联网信息的程序遥 它可以爬取的内容包括文 阻塞袁 程序就需要一直等待网站的反应遥 而框架的好处 本尧 图片尧 音频等数据遥 随着各行各业的快速发展以及 就在于可以异步袁 由于Python是一行一行代码执行袁 对数据需求的增加袁 网络爬虫的使用频率大大增加袁 不 遇到时间复杂度特别高的时候就会耗时巨大袁 采用异步 仅高效快捷袁 提高工作效率袁 而且有助于开发者的能力 功能的话袁 程序就会执行耗时短的代码袁 而异步操作完 提升遥 并且爬虫技术也在不断地发展和升级袁 对于不同 全由Python 的异步库自己掌控袁 常用的异步库有aio鄄 数据不同行业袁 往往开发者都会采用特定的爬虫类型袁 http尧 asks等遥 在基础爬虫业务熟悉的情况下袁 使用功 提高空间和时间效率遥 能更加强大的工具袁会进一步提升效率袁并且程序的封 在通常情况下爬虫的分类如下院 通用型尧 聚焦型尧 装性也会变强遥 增量型尧 Deep Web型遥 但是根据不同的角度而言袁 爬 目前常用的爬虫框架有Scrapy尧 PySpider尧 Crawley 虫的分类又有许许多多遥 而且每个类型很少零丁出现袁 : 往往是互相结合出现的遥 基金项目 2019年度四川旅游学院校级科研项目 19SC鄄 通用型袁 它可以通过一些URL链接而扩

文档评论(0)

135****3855 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档