- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
java实现网络爬虫 主题网络爬虫的研究与实现
导读:就爱阅读网友为您分享以下“主题网络爬虫的研究与实现”的资讯,希望对您有所帮助,感谢您对92的支持!
2.5 本章小结
本章从搜索引擎的角度出发,首先对搜索引擎的基本结构、原理和功能进行了分析和简单介绍,从而引出在搜索引擎中占有最重要地位的网络爬虫,接着对爬虫的结构和功能进行了详细介绍,并对其的各个部分和步骤进行了简要的说明,最后分析了主题页面在Web中的分布特征,为本论文以下内容的研究提供了理论基础。
第三章 网络爬虫的关键算法
前面已经讲述了主题网络爬虫的结构和工作原理,这章主要介绍网络爬虫的关键算法。
搜索引擎中最关键的部分是网络爬虫,它的性能好坏直接影响着搜索引擎的整体性能和处理速度。网络爬虫的搜索策略与搜索引擎的性质和任务密切相关。传统的通用搜索引擎的主要目的是获得较高的Web覆盖率,尽可能多的下载网页,它的网络爬虫通常采用图的遍历算法(如广度或深度优先策略)来搜索Web;主题搜索引擎的特点是搜索的内容只限于特定的主题或专门的领域,因而在搜索过程中没有必要对整个Web进行遍历,只需要选择与主题页面相关的页面进行访问即可。即主题搜索引擎更注重下载网页的准确性,因此可以说主题信息搜索策略是主题搜索引擎技术的核心。对主题搜索引擎而言,决定网络爬虫搜索策略的关键是如何将不相关的网页快速地过滤并删除掉,因为网页过滤的速度和准确性将会直接影响网络爬虫的性能。以何种策略访问Web,成为近年来主题搜索引擎网络爬虫研究的焦点之一。为了优先爬行高质量的相关网页,研究者们设计了许多启发策略和相关算法,这些策略大致分为两大类:基于文字内容的搜索策略和基于Web图的超链接结构的搜索策略。
这一章将重点介绍本论文所设计的主题爬虫在设计和实现的过程中将会用到的各种关键算法及其思想[10]。
3.1 网页搜索策略
网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题,目前常见的是广度优先和最佳优先方法。
(1) 广度优先搜索策略
广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。
您可能关注的文档
- gfewbi2009年中级会计职称考试经济法试题及答案解析(完整版).doc
- gl 5齿轮油 齿轮油教案5.doc
- GMAT管卫东Math-第21套-智课网.doc
- gmdss通信英语 gmdss英语试题.doc
- going in style UNIT 8 Honesty Is It Going Out of Style课文翻译大学英语二.doc
- gps测量原理及应用 GPS测量原理与应用试卷及答案(共5套).doc
- gre2015真题 GRE点题201509.doc
- group work英语作文 Group work.doc
- gre考题 GRE考题答案tn.doc
- global 剑桥商务英语课文辅导10b Goning global.doc
文档评论(0)