[个性化搜索引擎基础.docVIP

下载本文档

2
0
约3.99千字
约 6页
2017-01-09 发布于北京
举报
版权申诉

[个性化搜索引擎基础.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

[个性化搜索引擎基础

2010-3-8 1、广义的搜索引擎是指信息用户为处理和解决问题而查找、识别、获取相关的事实、文献和数据的活动及过程。狭义的搜索引擎是指信息用户在信息检索系统上的信息查询行为。 2、信息检索涉及三个重要的处理过程：文档集的逻辑表示、用户查询信息的表示、相似匹配。因此信息检索是一个三元体的框架，D为文档集中的一组文档逻辑视图（文档）,Q为一组用户信息需求的逻辑视图表示（用户查询），R（Q，D）表示文档与用户查询之间联系的相关度函数。 3、面向用户的个性化服务成为主流，是一个四元组框架，多个U，为R（Q，D，U）。 4、信息检索模型表达方式：布尔模型、向量空间模型、概率模型和逻辑模型等。向量空间模型更适合网络Web文本信息检索要求。 5、向量空间模型：用不同的词语项集来表达不同的Web网页文档，所有用语的集合构成了一个N维文档空间。Web文档集合中的任何一篇文档都可以表示为这个多维空间中的一个向量，因此称为文档向量。文档向量在每个词语维度上的取值能反映该词语在该文档中的权重。把网页文档看成是一组词语（T1，T2…，Tn）构成的序列。Wi为坐标值。网页文档可表示为（（T1，W1），（T2，W2），。。。，（Tn，Wn））。词频TF，与权重成正比。文档频率与权重成反比。 6、向量空间模型的缺点：不能有效地结构化查询，如布尔查询；只能抽取出文档中的词，不能反映这些词之间的关联。N元语法信息表示模型不权能够抽取出词，而且可表示相互关联。 7、从本质上看，由于信息检索只是以文档中自然语言作为基本的处理对象，因此目前这些传统的方式全部建立在一种基于“索引假设”的信息检索模型之上，只能处理非常简单的语言成分。通过引入更深层次的自然语言处理理论和方法来改进网络文本信息的组织和管理模式，有效地对词义加以最大限度地利用，以提高信息检索模型的性能，这被认为是未来最重要的发展方向. 8、义项矩阵模型（sense matrix model,SMM），利用自然语言中词和义项的复杂关系提出的一种新的文档表示，即把文档表示成为一个term*sense矩阵。 9、Web信息检索难度表现在三个方面：一如果获取海量Web数据；二是如何将异构信息整序以结构化存储；三是用户如何准确地表达自己的查询请求。 10、搜索引擎一般包含爬虫程序，分析程序，索引程序，检索程序和用户接口界面5个基本部分。 11、相关度排序技术：一是基于传统信息检索技术的方式，利用关键词在文档中的重要程度来对文档与用户查询要求的相关度做出测量，如果频率和位置；二是超链分析技术，网页被认可的重要程度作为检索结果的相关度排序依据。 12、相关度排序技术主要依赖于超链分析技术实现。它主要利用网页间存在的各种链接指向，对网页之间的引用关系进行分析，依据网页链人数的多少计算该网页的重要度权值。代表算法有：PageRank算法和HITS算法 13、数据挖掘提取的信息可以表示为：概念，规则，规律，模式等。 Web挖掘就是指将数据挖掘技术和Web网络结合起来的一种技术和过程，主要从Web文档和Web活动中抽取感兴趣的潜在有用模式和隐藏信息。从集合C发现隐含模式P的过程。 14、Web挖掘技术：关联规则挖掘技术，分类聚类挖掘技术。Web挖掘分为：Web内容挖掘，Web结构挖掘，Web使用挖掘（日志挖掘）。 15、Web内容挖掘分为基于文本的和基于多媒体的。基于文本的挖掘有两种策略：一个是直接挖掘网页文本的内容本身；另一个是对搜索引擎的查询结果进一步处理，以得到更为精确和有用的信息。 16、Web结构挖掘分为网页外部结构挖掘和网页内部结构挖掘。外部结构挖掘主要是针对网页间存在的超链进行分析，从而发现网页间链入和链出的规律，以此得到网页重要性的客观指标。内部结构挖掘主要是指按照面面内部不同板块的组织方式，挖掘出蕴含在页面内部的结构信息。 17、Web日志挖掘是通过处理服务器日志文件，以发现用户的浏览模式，如序列模式、关联规则、用户聚类等，通过理解用户的行为来预测用户的行为，进行用户个人信息的定制和网页的预测和推荐，为用户提供个性化的信息服务同时还能据此改进和优化Web站点结构。 18、 19、网页质量直接测度指标：一是基于网页链接关系的评价指标，能够被更多网页链入的流行网页是更为重要的网页，也是质量较高的网页。如Google的PageRank。可能出现“富越富”的现象。二是基于网站流量的评价指标。三是基于Web用户访问模型的评价指标，用户在浏览一个网页后，在较短时间内对其建立了超链，则可以认为这种网页具有较高的质量。 20、网页质量间接测度指标：一是基于网页名誉度的评价指标；二是基于网站权威性的评价指标；三是基于用户相关度反馈信息的评价指标。 21、网页相关度分析技术，超链分析算法。标准PageRank算法：一个网页的