搜索引擎及搜索引擎优化实验.docx

下载文档

0
0
约4.45万字
约 50页
2024-03-01 发布于天津
举报
版权申诉
保障服务

搜索引擎及搜索引擎优化实验.docx

1、本文档共50页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

实验三搜索引擎及SEO实验

一、实验目的

研究并学习几种常见的搜索引擎算法，包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法，了解它们的基本实现原理；运用所学SEO技术对网页进行优化。

二、实验内容

研究常用的网络蜘蛛爬行策略，如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等，了解其实现原理；

研究至少两种中文分词算法，了解其实现原理；

研究至少两种网页正文提取算法，了解其实现原理；

研究至少两种网页去重算法，了解其实现原理；

研究Google的PageRank和MapReduce算法，了解它们的实现原理；

使用所学的SEO技术，对实验二所设计的网站静态首页实施SEO,在实施过程中需采用如下技术：

网页标题(title)的优化；

选取合适的关键词并对关键词进行优化；

元标签的优化；

网站结构和URL的优化；

创建robots.txt文件，禁止蜘蛛抓取网站后台页面；

网页内部链接的优化；

Heading标签的优化；

图片优化；

网页减肥技术。

使用C++、C#和Java等任意一种编程语言，设计并实现一个简单的网络蜘蛛爬行程序，要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索，输出包含关键词的网页的URL和网页标题。【注：实验7为补充实验，不要求每个同学都完成，感兴趣者可自行实现该程序，不计入实验报告评分。】

三、实验要求

研究几种常用的网络蜘蛛爬行策略，填写相应的表格，表格必须填写完整；

研究两种中文分词算法，填写相应的表格，表格必须填写完整；

研究两种网页正文提取算法，填写相应的表格，表格必须填写完整；

研究两种网页去重算法，填写相应的表格，表格必须填写完整；

研究PageRank算法和MapReduce算法，填写相应的表格，表格必须填写完整；

提供实施SEO之后的网站静态首页界面和HTML代码，尽量多地使用所学SEO技术；

严禁大面积拷贝互联网上已有文字资料，尽量用自己的理解来阐述算法原理，必要时可以通过图形来描述算法；

使用任意一种编程语言实现一个简单的网络蜘蛛程序，需提供网络蜘蛛程序完整源代码及实际运行结果。

四、实验步骤

通过使用搜索引擎并查阅相关资料，研究并整理几种常用的网络蜘蛛爬行策略相关资料，填写相应的表格；

通过使用搜索引擎并查阅相关资料，研究并整理两种中文分词算法的基本原理，填写相应的表格；

通过使用搜索引擎并查阅相关资料，研究并整理两种网页正文提取算法的基本原理，填写相应的表格；

通过使用搜索引擎并查阅相关资料，研究并整理两种网页去重算法的基本原理，填写相应的表格；

通过使用搜索引擎并查阅相关资料，研究并整理PageRank算法和MapReduce算法的基本原理，填写相应的表格；

对实验二所设计的网站静态首页实施SEO；

使用任意一种编程语言，设计并实现一个简单的网络蜘蛛爬行程序。

五、实验报告要求

1.研究几种常用的网络蜘蛛爬行策略并填写如下表格:

策略名称

基本原理

参考资料

深度优先策略

深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点（即那些不包含任何超链的HTML文件）。在一个HTML文件中，当一个超链被选择后，被链接的HTML文件将执行深度优先搜索，即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止，然后返回到某一个HTML文件，再继续选择该HTML文件

百度百科深度优先搜索：

/view/288277.htm

中的其他超链。当不再有其他超链可选择时，说明搜索已经结束。

广度优先策略

宽度优先搜索算法（又称广度优先搜索）是最简便的图的搜索算法之一，这一算法也是很多重要的图的算法的原型。Dijkstra单源最短路径算法和Prim最小生成树算法都采用了和宽度优先搜索类似的思想。其别名又叫BFS，属于一种盲目搜寻法，目的是系统地展开并检查图中的所有节点，以找寻结果。换句话说，它并不考虑结果的可能位址，彻底地搜索整张图，直到找到结果为止。

百度百科广度优先搜索：

/view/1242613.htm

网页选择策略

对搜索引擎而言，要搜索互联网上所有的网页几乎不可能，即使全球知名的搜索引擎google也只能搜索整个Internet1网页的30%左右。其中的原因主要有两方面，一是抓取技术的瓶颈。网络爬虫无法遍历所有的网页；二是存储技术和处理技术的问题。因此，网络爬虫在抓取网页时。尽量先采集重要的网页，即采用网页优先抓取策略。

网页选择策略是给予重要程度、等级较高的Web页以较高的抓取优先级，即

您可能关注的文档

文档评论（0）

suijiazhuang1 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

搜索引擎及搜索引擎优化实验.docx