去伪存真去粗取精——页面质量评估及其在网络信息检索中的.ppt

去伪存真去粗取精——页面质量评估及其在网络信息检索中的.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
去伪存真去粗取精——页面质量评估及其在网络信息检索中的

去伪存真 去粗取精 ——页面质量评估及其在网络信息检索中的应用 马少平 刘奕群 清华大学计算机科学与技术系 智能技术与系统国家重点实验室 2006年7月,山东,济南 去伪存真 去粗取精 问题背景 页面质量评估的相关工作概述 高质量页面的查询无关特征分析 基于学习的页面质量评估算法 应用展望 去伪存真 去粗取精 问题背景 页面质量评估的相关工作概述 高质量页面的查询无关特征分析 基于学习的页面质量评估算法 应用展望 问题背景 World Wide Web的出现与发展 问题背景 Web蕴含着多少信息? How Much Info 工程 由Intel, Microsoft, HP, EMC等公司赞助,UC Berkeley大学完成 2002年世界上共产生了5Exabyte的数据,其中92%的信息存储于电子介质 相当于人类历史上所有说过的话语 所包含的信息量的总和 大部分存储于Web中,构成了Web 中超过150Billion的网络页面 问题背景 Web的发展带来了什么? 信息数量的急剧膨胀 知识的获取空前简单与繁荣 Information is no longer a scarce resource - attention is. (注意力,而不是信息,才是这个时代所稀缺的资源 ) (纽约时报,2005年10月16日) 在信息化时代,知识实际上已经不是资源,智慧才是资源。(清华大学经管学院魏杰教授) 从Web中有效的获取知识正在成为人们生活与工作的必须技能 高科技企业员工1/3的时间用于查找资料 由于无法找到有效信息而浪费的产值占企业收入1/5 问题背景 2005年搜索引擎市场的激烈竞争 Google市值的变化举世关注 Baidu上市造就数以百计的百万富翁 MSN推出新版搜索,MSRA建立搜索研究中心 Yahoo中国重组 主要门户网站Sohu, Sina, Netease, 腾讯纷纷推出搜索引擎产品 问题背景 最早的网络搜索引擎索引系统诞生:Stanford大学, 1995 问题背景:搜索引擎用户的需求 当前面临的存储与运算需求 每天处理超过2亿用户查询 近80亿页面索引 问题背景:搜索引擎的索引能力 搜索引擎索引规模的竞争 问题背景:搜索引擎的索引能力 搜索引擎索引规模竞争的终结? 没有任何一个搜索引擎可以覆盖互联网上的所有资源 2005年9月, Google从首页去除了页面索引数量的信息,并解释说:“绝对的数量已经不再重要” 问题背景:搜索引擎的索引能力 对中文搜索引擎而言 搜索引擎里每天有400多万被检索的关键词 一般而言不重复的关键词会占总数的30%以内 (根据李彦宏报告的百度状况) 对于每个关键词,用户平均点击的页面数在2页以内 则可以估算如下: 用户每天使用到的被索引的页面数为2400万个左右 在百度的平均更新周期(1个月)内,用户共可能访问到的页面总数为7.2亿个, 少于百度声称的索引量(8亿) 更少于中文网页总数(20亿) 问题背景 搜索引擎应当处理 (存储、评价、预处理与后处理)所有的Web页面么? 数据数量已然非常庞大 网络环境数据质量堪忧:不可靠、Spam、过时,重复 不需要,也不可能! 利用页面质量评估定位高质量页面 在用户查询之前进行 ? 数据预处理阶段 使用查询无关特征进行 问题背景 去伪存真 去粗取精 问题背景 页面质量评估的相关工作概述 高质量页面的查询无关特征分析 基于学习的页面质量评估算法 应用展望 页面质量评估相关工作概述 按照粒度不同 宏观粒度的质量评估 去除无用页面 / 定位有用页面 清理“全局垃圾” 微观粒度的质量评估 去除页面中的无用部分 / 找出页面中最有用的部分 清理“局部垃圾” 页面质量评估相关工作概述 宏观粒度的页面质量评估 目的:找出对用户检索信息有用的页面 当前的研究重点:Web链接结构分析 如果存在超链接L从页面P(source)指向页面P(destiny),则P(source)与P(destiny)之间满足: 假设1:(内容推荐假设)页面P(source)的作者推荐页面P(destiny)的内容,且利用L的链接文本内容对P(destiny)进行描述。 假设2:(主题相关假设)被超链接连接的两个页面P(source)与P(destiny)比随机抽取的两个页面有更大的概率有内容相关性。 PageRank(Google), HITS(Kleinberg.)及众多的改进算法 页面质量评估相关工作概述 微观粒度的页面质量评估 目的:找出对用户检索信息有用的页面的某个部分 去除特定垃圾信息(利用机器学习方法和一定量的训练) 去除广告条(Davison et. al.) 去除页面中的无关链接与垃圾链接(Kushmerick

文档评论(0)

zhaoxiaoj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档