大连理工大学搜索引擎与文本挖掘课程设计说明 - 搭建小型搜索引擎.pptVIP

下载本文档

5
0
约8.9千字
约 57页
2019-06-16 发布于浙江
举报
版权申诉

大连理工大学搜索引擎与文本挖掘课程设计说明 - 搭建小型搜索引擎.ppt

1、本文档共57页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* * * * 中文分词对于中文，分词的作用实际上是要找出一个个的索引单位例子：李明天天都准时上班索引单位字：李/明/天/天/都/准/时/上/班索引量太大，查全率百分百，但是查准率低；比如，查“明天” 这句话也会出来词：李明/天天/都/准时/上班索引量大大降低，查准率较高，查全率不是百分百，而且还会受分词错误的影响；比如，上面可能会切分成：李明天天都准时上班二字串：李明/明天/天天/天都/都准/准时/时上/上班去除停用词停用词(Stop words)：指那些出现频率高但是无重要意义；通常不会作为查询词出现的词，如“的”、“地”、“得”、“都”、“the”等等消除：通常是通过查表的方式去除，好处----大大减少索引量，坏处----有些平时的停用词在某些上下文可能有意义保留：索引空间很大检索模型什么叫检索？用户提交一个查询（Query），搜索引擎查找与该查询相关结果的过程。检索模型：布尔模型向量空间模型概率模型统计语言模型 …… 布尔模型简单的检索模型，建立在集合论和布尔代数的基础上。遵循两条基本规则: 每个索引词在一篇文档中只有两种状态：出现或不出现，对应权值为 0或1。查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式。优点：简单，易于实现，能够保证较高的查全率。缺点：只能精确判断文档是否出现某一查询词，但并没有给出每个词的重要程度，不能给出相关性排序布尔模型 …… engine search 3 5 7 Search AND engine Search OR engine 3 7 1 3 4 5 7 9 …… …… 1 3 4 7 9 向量空间模型查询和文档都转化成标引项(Term)及其权重组成的向量表示康奈尔大学 Salton 1970年代提出并倡导，原型系统SMART 例如：文档1：(2006,1,世界杯,3,德国,1,举行,1)，文档2：(2002,1世界杯,2,韩国,1,日本,1) 查询：(2006,1,世界杯,2) 查询和文档进行向量的相似度计算：夹角余弦或者内积文档1：1*1+3*2=7 文档2：2*2=4 优点：简洁直观，效果好，可以应用到很多其他领域。缺点：理论上不够完善，标引项之间的独立性假设与实际不符向量空间模型权重影响因子： TF（Term Frequency）：Term的频度，TF越高权重越高 DF（Document Frequency）：Term的文档频度，DF越高区分度越低，因此权重也越低 IDF（Inverse DF）：逆文档频率文档的长度：长度归一化(Length Normalization) 查询扩展对用户的查询进行扩充：比如用户输入“计算机”，我们扩充一个词“电脑” 同义词扩展：同义词词典通过统计构造的同义词词典相关词扩展：相关词：“2006世界杯” 与“德国” 基于全局分析的查询扩展：对文档集合进行分析得到某种相关词典基于局部上下文的查询扩展基于概念的查询扩展查询重构：对用户的初始查询进行修改(可以是加词、减词，或者对于向量模型表示的初始查询进行权重的修改等等)，是比查询扩展更泛的一个概念 Lucene介绍 Lucene简介完整、高效、易用、易扩展的开源全文检索工具包性质：Apache License 作者：Doug Cutting 网址：/ 版本：Lucene 4.10 平台：跨平台支持：Apache Jakarta项目 Lucene的其他语言版本 Lucene功能结果排序－最好结果优先强大的查询表达式处理功能－短语、通配符、模糊查询等分字段检索指定日期范围检索根据字段排序支持多索引检索与结果合并支持更新与检索同时进行 Lucene系统的组织结构 Lucene的索引文件格式 segments：存储索引的各个segment的信息 .del：已删除文档信息 .fnm：域信息 (域名域标志等) .fdt：域数据，存储文档的各种属性数据，例如文档路径，文档长度（按文档标号顺序组织） .fdx：文档域数据指针，每文档一个 .tis：索引词（term）信息，即词典 .tii：存储.tis中每IndexInternal个Term，这个文件装入内存以加快检索速度(二级索引) .frq：存放索引词（term）的词频信息 .prx ：索引词（term）的位置信息其它文件简单示例－索引 void IndexFiles(String INDEX_DIR, String docDir) { StandardAnalyzer myAnalyzer = new StandardAnalyzer();//分词器 In