nutch爬虫系统分析.doc

下载文档 降价啦

2
0
约9.48万字
约 59页
2017-02-23 发布于辽宁
举报
版权申诉
保障服务

nutch爬虫系统分析.doc

1、本文档共59页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

nutch爬虫系统分析

Nutch分析 1 Nutch简介 2 1.1 nutch体系结构 2 2 抓取部分 3 2.1 爬虫的数据结构及含义 3 2.2 抓取目录分析 4 2.3 抓取过程概述 4 2.4 抓取过程分析 5 2.4.1 inject方法 6 2.4.2 generate方法 12 2.4.3 fetch 方法 14 2.4.4 parse方法 16 2.4.5 update方法 16 2.4.6 invert方法 19 2.4.7 index方法 23 2.4.8 dedup方法 26 2.4.9 merge方法 30 3 配置文件分析 31 3.1 nutch-default.xml分析 31 3.1.1 !-- file properties -- 31 3.1.2 !-- HTTP properties -- 32 3.1.3 !-- FTP properties -- 35 3.1.4 !-- web db properties -- 37 3.1.5 !-- generate properties -- 41 3.1.6 !-- fetcher properties -- 42 3.1.7 !-- indexer properties -- 43 3.1.8 !-- indexingfilter plugin properties -- 45 3.1.9 !-- analysis properties -- 45 3.1.10 !-- searcher properties -- 45 3.1.11 !-- URL normalizer properties -- 48 3.1.12 !-- mime properties -- 48 3.1.13 !-- plugin properties -- 49 3.1.14 !-- parser properties -- 49 3.1.15 !-- urlfilter plugin properties -- 51 3.1.16 !-- scoring filters properties -- 52 3.1.17 !-- clustering extension properties -- 52 3.1.18 !-- ontology extension properties -- 53 3.1.19 !-- query-basic plugin properties -- 53 3.1.20 !-- creative-commons plugin properties -- 54 3.1.21 !-- query-more plugin properties -- 55 3.1.22 !-- microformats-reltag plugin properties -- 55 3.1.23 !-- language-identifier plugin properties -- 55 3.1.24 !-- Temporary Hadoop 0.17.x workaround. -- 56 3.1.25 !-- response writer properties -- 56 3.2 regex-urlfilter.txt解析 58 3.3 regex-normalize.xml解析 58 3.4 总结 59 4 参考资源 59 Nutch简介 nutch体系结构抓取部分爬虫的数据结构及含义爬虫系统是由Nutch的爬虫工具驱动的。并且把构建和维护一些数据结构类型同一系列工具关联起来：包括web database、一系列的segment和index。接下来我们将详细描述他们。三者的物理文件分别存储在爬行结果目录下的crawldb文件夹内，segments文件夹和index文件夹内。那么三者分别存储的信息是什么呢？ Web database，也叫WebDB，其中存储的是爬虫所抓取网页之间的链接结构信息，它只在爬虫Crawler工作中使用而和Searcher的工作没有任何关系。WebDB内存储了两种实体的信息：page和link。Page实体通过描述网络上一个网页的特征信息来表征一个实际的网页，因为网页有很多个需要描述，WebDB中通过网页的URL和网页内容的MD5两种索引方法对这些网页实体进行了索引。Page实体描述的网页特征主要包括网页内的 link数目，抓取此网页的时间等相关抓取信息，对此网页的重要度评分等。同样的，Link实体描述的是两个page实体之间的链接关系。WebDB构成了一个所抓取网页的链接结构图，这个图中Page实体是图的结点，而Link实体则代表图的边。一次爬行会产生很多个segment，每个segment内存储的是爬虫Cra