无比强大的网络爬虫new课件.pptxVIP

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

无比大的网爬虫heritrix

§§§§

搜索引擎

二、Heritrix目介Heritrix在古里是女承人的意思,我的网爬虫是从网上搜集和保存料以利于未来的研究者和后代,也是一种承,所以命名Heritrix很符合个件。是IA(的一个开源,可展的web爬虫目。§

§§§§§§

Frontier§§§

包含以下关特性:§§§§§§§§§

四、Heritrix的使用§

在下完Heritrix的完整开包后,解到本地的一个目下,其中,Heritrix所用到的工具都存在lib下,是Heritrix的jar包。在Heritrix目下有一个conf目,其中包含了一个很重要的文件pertier.

在perties中配置了大量与Heritrix运行息息相关的参数,些参数主要是配置了Heritrix运行的一些默工具,WebU1的启参数,以及Heritrix的日志格式等。当第一次运行Heritrix,只要修改文件,其加入WebUi登名和密。

Heritrix的主org.archive.crawler.Heritrix,运行它就可以启Heritrix。在运行它的候,需要其加上lib目下的所有jar包。以下是在命令行cmd中启Heritrix所使用的批理文件。§

在上面的批理文件中,将heritrix所用到的所有的第三方jar包都写了classpath中,同行了个主。

通器http://localhost:8080,就可以打开Heritrix的WebUI了。如10-4所示。

在个登界面,入才在Hperties中的WebUI的用名和密,就可以入如10-5所示的Heritrix的WebUI的主界面。

当看到个面的候,就明Heritrix已成功的启了。在面的中央有一道状,用于当前正在运行的抓取任。如10-6所示:

在任建面中,有4种建任的方式,如10-19所示,具体含如下。

(3)Withdefaults接,建一个新的抓取任,如所示。

置抓取的理在中,seeds文本框下有一排按,“Modules”按,就入了配置抓取的理的面,如所示

从我的看来,在抓取,无是HostScope或PathScope都不能真正的限制到抓取的内容。需要Scope内的代行一定的修改才可以,因此,BroadScope来充当示例中的范限定,其也就是范不做任何的限定。即从开始,抓取任何可以抓取到的信息。如10-23所示。

Frontier是一个URL的理器,它将决定下一个被理的URL是什么。同,它会将由理器所解析出来的URL加入到等待理的列中去。在例子中,使用BdbFrontier来做理器,全掌管URL的分配。如所示。

Extractor:它的名字就很好的揭示了它的作用。它主要用是于解析当前取到的服器返回内容,些内容通常是以字符串形式存的。在个列中,包括了一系列的工具,如解析HTML、CSS等。在解析完,取出面中的URL后,将它放入列中,等待下次抓取。在演示中,使用两种Extractor,即ExtractorHTTP和ExtractorHTML。如所示。

Writer:主要是用于将所抓取到的信息写入磁。通常写入磁有两种形式,一种是采用的方式写入,在里被称Arc方式,另一种采用象方式写入。当然理起来,象方式要更容易一些,因此,在演示中命名用象Mirror方式。如所示。

PostProcessor:在整个抓取解析程束后,行一些尾的工作,比如将前面Extractor解析出来的URL有条件的加入到待理列中去。如所示。

置运行的参数在置完理后,在面部或底部都可以找到如所示的菜,“Settings”接,就入了属性置的面,如所示。在属性置面上有非常多的入域,Heritrix在抓取网,些域是用来的各个件的行,如所示

由于面上的内容非常多,使用者可能无法全部了解它的作用。所以Heritrix提供了一个助功能,来在最大程度上使用者了解每个参数的含。如10-32所示。

1.max-toe-threads§参数的含很容易了解,它表示Heritrix在运行抓取任,任分配多少个程行同步抓取。参数的默100,而事上根据笔者的,在机器配置和网均很好的情况下,置50个程数就已足使用了。2.HTTP-Header在HTTP-Header个属性域下面,包括两个属性“user-agent和”“from。”默情况下,两个属性的如10-33所示。

很明,的是无法完成真的HTTP的模的,所以,必要将改掉。10-34是笔者机器上的一种配置,者可以借。“@VERSION@”字符串需要被替成Heritrix的版本信息。“PROJECT_URL_HERE”可以被替成任何一个完整的URL地址。“from”属性中不需要置真的E-mail地址,只需是

您可能关注的文档

文档评论(0)

136****1909 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档