基于JAVA的搜索引擎的设计与实现毕业设计.doc

基于JAVA的搜索引擎的设计与实现毕业设计.doc

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
仰恩大学毕业设计(论文) PAGE IV 基于JAVA的搜索引擎的设计与实现毕业设计 摘 要 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。 新闻搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。 本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。 关键词:搜索引擎;网络蜘蛛;搜索策略 仰恩大学毕业设计(论文) Abstract The resources in the internet are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structure of search engine based on the internet in detail, then gives a minute explanation form Spider search, engine and web server. In order to understand the technology more deeply, I have programmed a news search engine by myself. The news search engine is explained and searched according to \h \z \u 摘 要 h I Abstract h II 引 言 h 1 1 搜索引擎的结构 h 2 1.1搜索引擎系统概述 h 2 1.2搜索引擎的构成 h 2 1.2.1网络蜘蛛 h 2 1.2.2索引与搜索 h 2 1.2.3 Web服务器 h 3 1.3搜索引擎的主要指标及分析 h 3 2 网络机器人 h 4 2.1什么是网络机器人 h 4 2.2网络机器人的结构分析 h 4 2.2.2 Spider程序结构 h 4 2.2.3如何构造Spider程序 h 5 2.2.4如何提高程序性能 h 7 2.2.5网络机器人的代码分析 h 7 3 基于lucene的索引与搜索、tomcat 服务器 h 10 3.1什么是Lucene全文检索 h 10 3.2 Lucene的原理分析 h 10 3.2.1客户端设计 h 10 3.2.2全文检索的实现机制 h 11 3.2.3 Lucene的索引效率 h 11 3.2.4 中文切分词机制 h 13 3.2.5服务端设计 h 14 3.3 Lucene与Spider的结合 h 15 3.3.1如何解析HTML h 16 3.4 基于Tomcat的Web服务器 h 19 3.5在Tomcat上部署项目 h 19 4 搜索引擎策略 h 21 4.1简介 h 21 4.2面向主题的搜索策略 h 21 4.2.1导向词 h 21 4.2.2网页评级 h 21 4.2.3权威网页和中心网页 h 22 结 论 h 23 参考文献 h 24 致 谢 h 25 引 言 面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。 搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展: 第一代搜索引擎出现于1994 年前后。以Altavista, Yahoo 和Infoseek为代表,注重反馈结果的数量,主要特征是“求全”。它主要依靠人工分拣的分类目录搜索,通常由网页制作人自行建立网站名称、网站内容的文字摘要,并将其加入到搜索引擎的资料库中。搜索引擎根据用户键入的信息,根据预先设定的规则进行简单的匹配、排序和显示。这种方法只能进行简单的字符串匹配,无

文档评论(0)

weidameili + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档