基于相关性分析的搜索引擎设计.docx

基于相关性分析的搜索引擎设计.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于相关性分析的搜索引擎设计

?

?

赵冰漫

摘要随着计算机系统性能的提高和网络技术的不断进步,如何在互联网这个庞大的信息资源中提供高效的搜索服务,帮助用户在海量的数据中快速找到需要的信息是搜索引擎亟待解决的问题。通常用户只关心返回的排在前面的结果,然而当前搜索引擎返回的查询结果与用户需求的相关性并不高。于是搜索引擎的相关性设计--按照与用户查询的相关程度对搜索引擎的索引文档进行排序,成为当前研究的重点。

关键词搜索引擎相关性用户查询索引

:TP391:A

0引言

本文对搜索引擎的相关性进行了深入的研究,主要工作归纳为以下几点:

(1)文本搜索引擎的相关性排序模型,采用向量空间模型。

(2)文本搜索引擎数据源采用网络爬虫实现。

(3)文本搜索引擎数据分类采用朴素贝叶斯算法。

1相关性分析与实现

TF-IDF:是一种常用的检索系统的加权技术。

基本思想:是每个字词的重要性随着它在文件中出现的次数成正比,与在其他文件中出现的次数成反比。

TF:TermFrequency:关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则:TF=为该关键词在这篇文章中的词频。

IDF:InverseDocumentFrequency:逆向文本频率,是用于衡量关键词权重的指数,由:IDF=log()计算而得。

D:表示文章总数,DW:表示关键词出现过的文章数。

2基于向量空间的余弦算法

算法步骤:预处理→文本特征项选择→加权→生成向量空间模型后计算余弦。

(1)预处理。预处理主要是进行中文分词和去停用词。然后按照停用词表中的词语将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点、及乱码去掉。例如:“这,的,和,会,为”等词出现在任何一篇中文文本中,但是他们对这个文本所表达的意思几乎没有任何贡献。使用停用词表来剔除停用词的过程,就是一个查询过程,对每一个词条,看其是否位于停用词表中,如果是则将其从词条串中删除。

(2)文本特征性选择与加权。过滤掉常用副词、助词等频率高的词之后,根据剩下词的频度确定若干关键词。频度计算参照TF公式。

(3)加权是针对每个关键词对文本特征的体现效果小大不同而设置的机制,权值计算参照IDF公式。

(4)向量空间模型VSM及余弦计算。向量空间模型的基本思想是把文档简化为以特征项(关键词)的权重为分量的N维向量表示。

假设一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d),对于其他要与之比较的文本,也将遵从这个特征项顺序。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度,即D=D(T1,W1;T2,W2;…;Tn,Wn)简记为D=D(W1,W2,…,Wn)把他叫做文本D的权值向量表示,其中Wk是Tk的权重,1≤k≤N。

两个文本D1和D2之间的内容相关度SIM(D1,D2)常用向量之间夹角的余弦值表示,即

式中W1k、W2k表示文本D1和D2第k个特征项的权值,1≤k≤N。

3朴素贝叶斯算法设计与实现

朴素贝叶斯的思想基础是:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

文本分类在搜索引擎中属于必备语言处理模块,每篇文章都由成百上千个词语组成,可以当做个向量集W=(w1,w2,w3,…,wn),其中wi即表示其中第i个词语。文章的分类也可以视为一个分类标记集合C=(c1,c2,c3,…,cm)。在wi出现的情况下,文本是文本分类C的概率,可根据贝叶斯计算,公式为:

在文本分类的角度理解贝叶斯公式为:在wi词出现的情况下是否是文本类别取决于在文本分类cj情况下wi出现的概率,以及wi在所有词中出现的概率。p(w)的意义在于如果这个词在所有文档中出现,那么用wi去判定是否是cj的概率越低,越不具备代表性。

朴素贝叶斯是一种有监督的学习方式,可以利用伯努利模型以文件为粒度进行文本分类。可以归纳朴素贝叶斯大致分为数据准备、分类器训练及分类识别三个阶段。

(1)数据准备。语料库的准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定属性特征,并对每个属性特征进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上是由特征属性、特征属性划分及训练样本质量决定的。

(2)分类器训练。这个阶段的任务是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输

文档评论(0)

139****3710 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档