认识神秘搜索引擎讲课.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎工作原理-页面排序 用户在搜索引擎中输入查询条件后,搜索引擎就在数据库中检索相关的信息,并将检索结果返回给用户 搜索引擎在往用户端返回数据的时候,并不是随机的,而是按照一定的计算方法进行排序的 涉及到排序的因素主要有: 页面相关性 链接权重 用户行为 搜索引擎工作原理-页面排序 结合页面的内外因素,计算出页面与某个关键字的相关程度,从而得到与该关键字相关的页面索引列表 页面排序-页面相关性 页面相关性 通过对检索结果进行相关性排序,搜索引擎的最终目的是将最相关的网络信息尽可能地优先显示在搜索结果的前面部分,以改进搜索结果的输出。 虽然各个搜索引擎中相关度排序的具体实现各不相同,但基本上都采用了基于网站内容的分析方法,即考虑用户所查询的关键词在文档网页中的出现情况,包括关键字匹配度、关键词密度、关键词位置、关键字的权重标签等因素。 页面相关性 关键字匹配度:是指网页中的内容与用户所查询的关键字之间的匹配程度,主要是2个因素: 页面中是否包含关键字 关键字在页面中出现的次数 关键字密度: 关键字出现的次数与该网页总词汇量的比例 页面相关性 关键字分布: 关键字在网页中出现的位置 关键字在网页中出现的位置会影响到关键字的分布值 关键字的权重标签 关键字是否使用了HTML标签实现了不同的视觉效果(如加粗、颜色变换等) 页面相关性计算公式: R(relevance)=M(match)+D(density)+P(position)+T(html Tag) 链接 页面之间的超链接反映了页面之间的引用关系,页面被其他站点或其他网页引用的次数基本上也反映了该网页的受欢迎程度或重要性。 内部链接 外部链接 对新网站和新网页链接的权重补偿 搜索引擎工作原理-用户行为 用户行为主要包括: 搜索:用户获得信息的过程,通过这个用户行为,学习新词汇,丰富辞典 点击:用户对搜索结果的反应,被点击的次数越多,说明越重要,权重越高 为避免马太效应,对排在后面的链接的点击的权重补偿 DEC原本是一家芯片公司,基于当时搜索引擎功能的强大, DEC公司为了现实自己也开发了一款搜索引擎,虽然只是玩玩,但是给搜索引擎带来了很大的贡献。 Cookie文件的位置:C:\Documents and Settings\hp\Cookies;cookie会记下你的搜索习惯,比如说你经常搜电影,那么他就会将电影相关的内容优先展示给你,这是hotbot给行业带来的贡献,开始通过cookie收集记录个人行为; “Google”这个名字来源于单词“googol”,是由美国数学家 Edward Kasner 的外甥 Milton Sirotta 创造的。1个Googol所代表的数字为1后面加上 100 个零。Google公司则把1998年9月27日认作自己的生日。 Alpha是公司内部的测试版,不会推行出去; Beta版本已经推行到市场上了,但是是公开的测试版本了!Google的文化一直都是精益求精,所以google很多产品的beta版本会持续很多年。网页快照曾经遇到的是设备的投入的问题,网络中的所有网页都要收录,那是个海量的数量。Google的用户界面第一个做的这么简洁,像同时代的yahoo,他的界面是非常丰富的,因为他希望将顾客留在自己的网页,从而获取很多的广告收入,google引领了简洁界面! 李彦宏本科是在北大图书馆专业学习,所以他能有专利在手,其实也是有道理的,管理图书和管理网络中的网页是非常类似的。在百度诞生之前,李彦宏的公司只是给想新浪这样的门户提供搜索引擎的技术。 了解搜索引擎的工作原理,主要是为了做自己的seo,根据搜索引擎的需求让自己的网页被更好的收录。 根据链接不断地进行收录,理论上是可以收录所有的网页,但实际上收录的网页比率是越来越小,因为现在的网站资源是越来越多,互联网上每天都会产生很多的信息,像各类交友网站、各个论坛、微博等等,这里产生的数据每天都是海量的! 最开始你新建的网站可以让别人或者你的朋友已经建立的网站链接你的网站,那就有可能当爬虫找到你朋友的网站时就可以通过链接找到你的网站,也可以主动出击提交网站。 这里给学生实际动手的时间,让学生操作两个提交页面。 文件类型,因为爬虫可以pdf、doc、ppt等文件,不只是html文件。 一个段落切分成句子比较简单,因为有标点符号,然后将句子切分成单词;例子(果然造句):小明先吃了一个苹果,然后吃了一根香蕉;(的地得造句):我家的地得打扫了; 例如(统计分词):亚克蜥(百度十大神兽) 凤姐 犀利哥 酱紫 草泥马 关于早期图书馆借书的例子,也是建立一个索引;李彦宏的例子,北大专业是图书馆检索,与搜索引擎有很大的关系的。 学生信息一览表 h1h2加粗,加强,斜体等等权重标签 比如写了一篇关于培训的文

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档