- 1、本文档共56页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
本章介绍网络爬虫的基本概述和使用Python内置的urllib库抓取网页、使用第三方的BeautifulSoup库解析网页的基本方法。
第10章 网络爬虫基础
目录
第10章 网络爬虫基础
10.1 爬取网页的urllib库
10.1.1 urllib库简介
10.1.2 urllib.request模块
10.1.3 使用urllib.request.Request()方法包装请求
10.2 解析网页的BeautifulSoup模块
10.2.1 安装与导入BeautifulSoup
10.2.2 BeautifulSoup对象
10.3 爬取网络资源示例
10.4 习题
10.1 爬取网页的urllib库
10.1.1 urllib库简介
urllib库是Python内置的HTTP请求模块。urllib库提供的上层接口,使访问www和ftp服务器上的数据就像访问本地文件一样。urllib库有以下4个模块。
1)urllib.request:请求模块,用来打开和读取URL。
2)urllib.error:异常处理模块,包含request产生的错误,可以使用try进行捕捉处理。
3)urllib.parse:URL解析模块,包含一些解析URL的方法(拆分、合并等)。
4)urllib.robotparser:robot.txt解析模块。
使用urllib库的前提是需要导入urllib库中对应的模块。例如导入urllib.request模块,语句如下:
import urllib.request
或
from urllib import request
10.1 爬取网页的urllib库
10.1.2 urllib.request模块
如果需要模拟浏览器发起一个HTTP请求,则可以使用urllib.request模块。urllib.request的作用不仅仅是发起请求,还能获取请求返回结果。
1. urllib.request.urlopen()方法
urlopen()是一个简单的发送网络请求的方法。导入urllib.request模块后,则使用模块中的urlopen()方法打开并爬取网页。
(1)urlopen()方法的语法
urlopen()方法的语法格式如下:
变量=urllib.request.urlopen(url, data, timeout)
10.1 爬取网页的urllib库
1)参数url是要打开的网址URL,是必须传送的参数。
【例10-1】爬取百度首页(),通过请求百度的get请求获得百度首页,获取其页面的源代码,并显示在窗口中。
import urllib.request # 导入urllib.request模块
response = urllib.request.urlopen(/) # 打开并爬取网页
print(查看response响应信息类型: , type(response))
page = response.read() # 读取所有内容,返回二进制类型的数据
html = page.decode(utf-8) # 转换为UTF-8编码的字符串,显示HTML代码
print(html)
程序运行结果如图10-1所示。
2)参数data是访问URL时要提交的数据。例如:
response = urllib.request.urlopen(url=/, data=busername=adminpassword=123, timeout=0.1)
3)参数timeout设置网站访问超时时间,单位是秒。作为网页的访问者,爬虫不能一直等着服务器返回错误信息,因此在爬取网页时可以设置超时异常的值。当网页在设置的时间内无法打开时,判断网页超时。如果省略参数timeout则按默认时间;如果请求超过设置时间,则抛出异常。例如:
import urllib.request
response = urllib.request.urlopen(/get, timeout=1)
print(response.read().decode(utf-8))
10.1 爬取网页的urllib库
4)执行urlopen()方法后,返回一个HTTPResposne类型的对象,返回的网页信息保存在该对象中。
【例10-2】使用print(response)查看变量response中保存的内容:
from urllib import request
response = request.urlopen()
print(response)
http.client.HTTPResponse object at 0FC55048
1
您可能关注的文档
- 《Python程序设计》—教学大纲(课程标准).doc
- 《Python程序设计》教学课件—01搭建Python运行环境.pptx
- 《Python程序设计》教学课件—02Python基础语法.pptx
- 《Python程序设计》教学课件—03Python流程控制.pptx
- 《Python程序设计》教学课件—04函数与模块.pptx
- 《Python程序设计》教学课件—05面向对象编程.pptx
- 《Python程序设计》教学课件—06组合数据类型.pptx
- 《Python程序设计》教学课件—09-tkinter-GUI编程.pptx
- 《Python程序设计》教学课件—11数据处理.pptx
- 《Python程序设计》教学课件—12数据可视化.pptx
文档评论(0)