去伪存真去粗取精——页面质量评估及其在网络信息检索中的.ppt

下载文档 降价啦

7
0
约5.93千字
约 48页
2017-03-01 发布于天津
举报
版权申诉
保障服务

去伪存真去粗取精——页面质量评估及其在网络信息检索中的.ppt

1、本文档共48页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

去伪存真去粗取精——页面质量评估及其在网络信息检索中的

去伪存真去粗取精——页面质量评估及其在网络信息检索中的应用马少平刘奕群清华大学计算机科学与技术系智能技术与系统国家重点实验室 2006年7月，山东，济南去伪存真去粗取精问题背景页面质量评估的相关工作概述高质量页面的查询无关特征分析基于学习的页面质量评估算法应用展望去伪存真去粗取精问题背景页面质量评估的相关工作概述高质量页面的查询无关特征分析基于学习的页面质量评估算法应用展望问题背景 World Wide Web的出现与发展问题背景 Web蕴含着多少信息？ How Much Info 工程由Intel, Microsoft, HP, EMC等公司赞助，UC Berkeley大学完成 2002年世界上共产生了5Exabyte的数据，其中92%的信息存储于电子介质相当于人类历史上所有说过的话语所包含的信息量的总和大部分存储于Web中，构成了Web中超过150Billion的网络页面问题背景 Web的发展带来了什么？信息数量的急剧膨胀知识的获取空前简单与繁荣 Information is no longer a scarce resource - attention is. (注意力，而不是信息，才是这个时代所稀缺的资源 ) (纽约时报，2005年10月16日) 在信息化时代，知识实际上已经不是资源，智慧才是资源。（清华大学经管学院魏杰教授）从Web中有效的获取知识正在成为人们生活与工作的必须技能高科技企业员工1/3的时间用于查找资料由于无法找到有效信息而浪费的产值占企业收入1/5 问题背景 2005年搜索引擎市场的激烈竞争 Google市值的变化举世关注 Baidu上市造就数以百计的百万富翁 MSN推出新版搜索，MSRA建立搜索研究中心 Yahoo中国重组主要门户网站Sohu, Sina, Netease, 腾讯纷纷推出搜索引擎产品问题背景最早的网络搜索引擎索引系统诞生：Stanford大学, 1995 问题背景：搜索引擎用户的需求当前面临的存储与运算需求每天处理超过2亿用户查询近80亿页面索引问题背景：搜索引擎的索引能力搜索引擎索引规模的竞争问题背景：搜索引擎的索引能力搜索引擎索引规模竞争的终结？没有任何一个搜索引擎可以覆盖互联网上的所有资源 2005年9月, Google从首页去除了页面索引数量的信息，并解释说：“绝对的数量已经不再重要” 问题背景：搜索引擎的索引能力对中文搜索引擎而言搜索引擎里每天有400多万被检索的关键词一般而言不重复的关键词会占总数的30%以内（根据李彦宏报告的百度状况）对于每个关键词，用户平均点击的页面数在2页以内则可以估算如下: 用户每天使用到的被索引的页面数为2400万个左右在百度的平均更新周期（1个月）内，用户共可能访问到的页面总数为7.2亿个，少于百度声称的索引量（8亿）更少于中文网页总数（20亿）问题背景搜索引擎应当处理 (存储、评价、预处理与后处理)所有的Web页面么? 数据数量已然非常庞大网络环境数据质量堪忧：不可靠、Spam、过时，重复不需要，也不可能! 利用页面质量评估定位高质量页面在用户查询之前进行 ? 数据预处理阶段使用查询无关特征进行问题背景去伪存真去粗取精问题背景页面质量评估的相关工作概述高质量页面的查询无关特征分析基于学习的页面质量评估算法应用展望页面质量评估相关工作概述按照粒度不同宏观粒度的质量评估去除无用页面 / 定位有用页面清理“全局垃圾” 微观粒度的质量评估去除页面中的无用部分 / 找出页面中最有用的部分清理“局部垃圾” 页面质量评估相关工作概述宏观粒度的页面质量评估目的：找出对用户检索信息有用的页面当前的研究重点：Web链接结构分析如果存在超链接L从页面P(source)指向页面P(destiny)，则P(source)与P(destiny)之间满足：假设1：（内容推荐假设）页面P(source)的作者推荐页面P(destiny)的内容，且利用L的链接文本内容对P(destiny)进行描述。假设2：（主题相关假设）被超链接连接的两个页面P(source)与P(destiny)比随机抽取的两个页面有更大的概率有内容相关性。 PageRank（Google）, HITS（Kleinberg.）及众多的改进算法页面质量评估相关工作概述微观粒度的页面质量评估目的：找出对用户检索信息有用的页面的某个部分去除特定垃圾信息（利用机器学习方法和一定量的训练）去除广告条（Davison et. al.）去除页面中的无关链接与垃圾链接（Kushmerick