这就是搜索引擎.ppt

  1. 1、本文档共100页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
这就是搜索引擎

3.7 专用链接反作弊技术 3.7.1 识别链接农场 1. 网页出链的统计分布规律,正常网页的出链满足Power-law分布,作弊网页的出链违反该分布。 2. 网页入链的统计分布规律,正常网页的入链也满足Power-law分布,作弊网页则违反该分布。 3. URL名称统计特征,作弊网页的网址倾向于较长,包含更多的点画线和数字等。 4. 很多作弊网页的URL地址尽管不同,但是常常会对应同一个IP地址。 5. 网页特征会随着时间变化,比如入链的增长率、出链的增长率等,正常网页和作弊网页在这些变化模式上是不同的。 3.7.2 识别 Google轰炸 Google轰炸利用了指向目标网页的锚文字来操纵搜索结果排名,而锚文字很可能和被指向的页面没有任何语义关系,所以一个直观的判断方式即为判断锚文字是否和被指向页面有语义关系,如果有语义关系存在,则被判断为正常链接,否则可被判断为作弊链接。 但是事实上由于锚文字都比较短小,如果在字面上和被指向页面内容没有直接关系也是很正常的,所以自动判断Google轰炸作弊具有较大难度。 3.8 识别内容作弊 针对内容作弊,往往可以采用一些启发规则或者内容统计分析的方式进行识别。 比如对于重复出现关键词这种作弊方式,可以判断文本内一定大小的窗口中是否连续出现同一关键词,如果是的话则消除掉重复出现的内容。 比如对于标题关键词作弊,可以判断标题词汇在文本正文出现的比例和权重,如果达到一定条件则可判断为标题关键词作弊。 也可以采用一些统计手段来进行内容作弊识别,比如统计正常网页中句子长度的规律、停用词的分布规律或者词性分布规律等,通过比较页面内容统计属性是否异常来识别内容作弊的情况。 3.9 反隐藏作弊 3.9.1 识别页面隐藏 3.9.2 识别网页重定向 3.10 搜索引擎反作弊综合框架 * 锚文字也是网页中一种常见且非常有用的信息。所谓锚文字,就是页面内某个出链附近的一 些描述文字。之所以锚文字会比较重要,是因为锚文字往往是对目标网页的一种概括性描述, 所以在很多技术方法里都会利用这个信息来代表目标网页的含义。图2-3给出了一个锚文字 与链接之间的关系示意图 * 几年前曾经有个著名例子,采用Google轰炸来操控搜索结果排名。当时如果用Google 搜索“miserable failure”,会发现排在第 2位的搜索结果是美国时任总统小布什的白宫页 面,这就是通过构建很多其他网页,在页面中包含链接指向目标页面,其链接锚文字包 含“miserable failure”关键词(参考图 3-3和图 3-4)所达到的效果。通过这种方式就导致了人们看到的搜索结果。 * 2.5.2 链接关系传播 2.5.3 Authority 权值计算 2.6 主题敏感 PageRank(Topic Sensitive PageRank) 主题敏感PageRank是PageRank算法的改进版本,该算法已被Google使用在个性化搜索服务中。 2.6.1 主题敏感 PageRank与 PageRank的差异 2.6.2 主题敏感 PageRank计算流程 2.6.3 利用主题敏感 PageRank构造个性化搜索 2.6.1 主题敏感 PageRank与 PageRank的差异 PageRank算法基本遵循随机游走模型,即用户在浏览某个网页时,如果希望跳转到其他页面,则随机选择本网页中的某链接,进入另一个页面。 主题敏感PageRank则对该概念模型做出改进,引入了更符合现实的假设。即当用户看完当前页面,希望跳转时,更倾向于点击和当前页面主题类似的链接,即主题敏感PageRank是将用户兴趣、页面主题及链接所指向网页与当前网页主题的相似程度综合考虑而建立的模型。很明显,这更符合真实用户的浏览过程。 2.6.2 主题敏感 PageRank计算流程 分类主题PageRank计算 在线相似度计算 2.6.3 利用主题敏感 PageRank构造个性化搜索 主题敏感PageRank算法非常适合作为个性化搜索的技术方案。 在如图2-21所示的例子里,计算相似度使用的只有用户当前输入的查询词“乔丹”,如果能够对此进行扩展,即不仅使用当前查询词,也考虑利用用户过去的搜索记录等个性化信息。 比如用户之前搜索过“耐克”,则可以推断用户输入“乔丹”是想购买运动服饰,而如果之前搜索过“姚明”,则很可能用户希望获得体育方面的信息。通过这种方式,可以将用户的个性化信息和当前查询相融合来构造搜索系统,以此达到个性化搜索的目的,更精准地提供搜索服务。 2.7 Hilltop算法 Hilltop算法是Torono大学研发的链接分析算法

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档