基于J2EE的网络爬虫技术的研究毕业设计论文.doc

下载文档 降价啦

2
0
约4.07万字
约 61页
2019-05-17 发布于河南
举报
版权申诉
保障服务

基于J2EE的网络爬虫技术的研究毕业设计论文.doc

1、本文档共61页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

本科毕业设计说明书（论文）第 PAGE 60 页共 NUMPAGES 50 页 1 绪论 1.1 课题的研究背景随着计算机网络的不断发展，越来越多的用户以及开发人员深切地感受到了计算机技术在搜索领域中的作用越来越重要，越来越要求搜索引擎执行效率。掌握计算机是生活的需要，是职业的需要，更是产业发展的需要，更是为了创造更高的经济利润的需要。信息在社会和经济的发展中所起的作用越来越为人们所重视。随着网络的迅速发展，万维网称为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。在计算机的三大主要应用领域(科学计算、数据处理与过程控制)中，数据处理的比重约占70%左右。计算机作为信息处理的工具，为适应数据处理需求的迅速提高，满足各类信息系统对数据管理的要求，在文件系统的基础上发展起了数据库系统。数据库技术产生于60年代末，70年代初期，其主要目的是有效地管理和存取大量的数据资源。数据库技术主要研究如何存储、使用和管理数据，是计算机数据管理技术发展的最新阶段。数据库存储的是通用化的相关数据集合，它不仅包括数据本身，而且包括数据之间的联系。30多年来，数据库在理论上、实现技术上均得到很大的发展，研制出许多商用数据库管理系统，使得计算机应用渗透到各行各业的各类管理工作中。现在，数据库技术已成为计算机领域里最重要的技术之一，是软件学科的一个独立分支。近年来，数据库技术和计算机网络技术的发展相互渗透、相互促进，已成为当今计算机领域内发展迅速、应用广泛的两大领域。数据库系统是数据处理的核心机构，售楼管理系统、办公自动化系统、决策支持系统等都是使用了数据库管理系统或数据库技术的计算机应用系统。互联网已经进入大家的生活，利用互联网来获取有价值的信息势在必行。本课题主要是实现一个搜索引擎，主要功能是抓取网络上的网页中的信息，进行过滤返回相关有用的信息。通过本系统，用户只需输入关键字，系统进行处理后，将会返回与关键字相关联的信息。 1.2 课题的研究现状目前为止，随着互联网的普及，使用计算机的人越来越多，那么需要查找信息的的功能就越显得重要。从而使得搜索引擎应需求而生，搜索引擎作为一个辅助人们检索信息的工具已经显得越来越重要。搜索引擎按其工作方式可以分为三种，分别是全文搜索引擎，目录搜索类引擎和元搜索引擎。全文搜索引擎是常用的搜索引擎，大家最熟悉的就是国外的代表Google,和国内的百度。它们通常都是提取各个网站的网页文字存放在建立的数据库中，检索与用户查询条件匹配的相关记录，然后按其自己设定的排列数序将结果返回给用户。目录索引，就是将网站分类，然后存放在响应的目录里，用户在查询所需要的内容时有两种选择，一种是关键字搜索，另一种是按分类目录一层一层的查找。目录索引只能说有搜索功能，但仅仅是按照目录分类的网站链接列表。用户完全可以不用进行关键字查询，仅靠分类目录也可以找到需要的信息。目录搜索型引擎中最具代表性的是Yahoo。元搜索引擎可以同时在其他多个引擎上进行搜索，将搜索结果进行统一处理，并将结果以统一的格式返回给用户。正因为如此，这类搜索引擎的有点是返回结果的信息量更全面，但是缺点就是无用的信息太多不能准确的找到用户所需要的结果。在搜索结果排列方面，不通的元搜索引擎有不通的结果排列的方式，如Dogpile，就直接按来源引擎排列搜索结果，如Vivisimo，是按自定的规则将结果重新进行排列。网络快速发展的今天，互联网承载着海量的信息，能够准确快速的提取我们所需要的信息是现在的挑战。传统的搜索引擎有Yahoo,Google，百度等，这些检索信息的工具是每天访问互联网的必经之路。但是，这些传统性搜索引擎存在着局限性，它不能全面的准确的找到所需要的信息，也会使一些和需求无关的内容一起搜索到。严重的降低了使用这些信息的效率，所以说提高检索信息的速度和质量是一个专业搜索引擎的主要研究内容。 1.3 课题的研究意义网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还