- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2024年信息检索考试题库
1.现代信息检索的基本流程
正确答案:完整的信息检索处理过程如图7-1所示,包括用户信息需求的表达、待检索文档集的索引构建、查询条件与索引文档的匹配以及用户反馈环节。其中,关键词、问句以及检索中的用户画像与个性化检索,可看作是需求表达环节,词项提取与倒排索引构建可看作是索引构建的工作,后面提到的布尔检索模型、向量空间模型等检索模型可用于解决匹配问题,而相关反馈处理与日志挖掘,则属于反馈环节。
解析:暂无解析
2.倒排索引的工作流程
正确答案:首先,文件解析模块负责从不同格式的文件之中,提取出可供检索之用的文本内容,作为建立倒排索引的原始数据来源,例如,从网页文档、纯文本文件、PDF、各类办公格式的文件、压缩文件之中提取出待索引的文本内容。其次,词条切分模块负责把连续的文本字符数据,转换为词语级别的可处理单元。由文本分割形成的词语单元,称为词条(Token)。然后,语言分析模块将传入的词条逐一分析,转换为规范的形式,例如,把英文的单、复数形式统一转换为单数形式,把大写字母统一转换为小写字母。词条规范化处理之后得到的结果称为词项(Term)。最后,索引构建模块根据文档的词项序列,构建倒排索引,以支持后续的快速检索功能
解析:暂无解析
3.索引构建的常用方法。
正确答案:词项-文档关联矩阵1)把所有的词语和文档之间的关系,以二维表格的方式组织到一起,称为词项-文档关联矩阵。2)矩阵每一行的数字构成的序列称为该词项的文档向量,表示该词项在哪些文档中出现过,出现时对应位置为1,未出现时对应位置为0。3)我们把逐个扫描文档查找词语的过程,转变为从已有词项-文档关联矩阵中寻找定位词语所在文档的过程。倒排索引词项-文档关联矩阵可以有效地实现对词语的检索,但是当文档集合规模变大时,词项-文档关联矩阵也会随之变得庞大。为此,人们把每篇文档用一个唯一的数字来表示,该数字称为文档ID,通常简写为docID。整个词项-文档关联矩阵分成两部分,即词项构成的词典和每一个词项所出现的文档ID列表。由词项映射到所出现的文档的信息组织方式称为倒排索引。
解析:暂无解析
4.索引压缩的目的是什么,有哪些方法?
正确答案:对倒排文件进行适当的压缩,不仅可以减少占用的内存和磁盘的空间,还可以提高磁盘的吞吐量,从而提高维护和查询索引的效率。压缩技术一般分为有损压缩和无损压缩两类。去停用词、词干提取等技术属于有损压缩,因为在使用这些技术时会损失一些原文中的信息。倒排文件的无损压缩技术,即在压缩倒排文件的同时,其原始信息完全被保留,不会缺损。由于倒排文件由词汇表和记录表两部分组成,因此对倒排文件的压缩也需要从这两方面考虑。(1)词汇表的压缩在检索的时候,需要经常查询词汇表,理想情况下,应将词汇表始终置于内存之中。但随着索引文档数量的增多,词汇表也将逐渐增大,若不对其进行压缩,很可能造成内存不足;同时,对于某些内存有限的应用,更需要节约内存;另外词汇表过大还会造成加载缓慢等问题;对于桌面检索系统,因为需要雨其他程序共享内存资源,也要求词汇表必须尽量的小。可见,对词汇表进行压缩是非常必要的。最简单和常用的词汇表存储结构是使用定宽数组存储单词表,即使用固定大小的数组表示一个单词。这种表示方式存在两个缺点:1浪费存储空间;2不能表示所有的词。为了克服这些缺点,可以使用一个长字符串连续存储单词表,这样的存储方式既紧凑,又不会出现溢出问题。(2)记录表的压缩在倒排文件中,一般使用16位或32位整数表示文档和单词的位置的绝对编号,因为这种机器字长对齐的表示方式适用于多数编译器和处理器。然而,16位的无符号整数在实际中是很容易造成溢出的,因此需要花费更多的字节来存储,如32位。为了解决上面的矛盾,节省更多的空间,人们经常使用文档编号和单词位置的相对变化来表示。通过这种记录相对变化的表示方法,就可以用比较少的字节表示编号的相对变化。而这种整数的定长表示节省的空间有限,一般使用变长整数来表示这种相对变化,。其基本原理就是使用较少的位数表示较小但出现次数较多的整数;而较大的整数,因其出现的次数较少,可使用较多的位数表示。由于多数单词出现的文档编号相对变化数字较小,所以从整体来看,这种方法可以大大压缩存储空间。上面介绍的倒排文件压缩技术的优点是相当明显的:(1)降低了索引在内存和磁盘中占用的空间,经过适当的压缩,索引的大小可以降为原始文档的25%左右。(2)由于索引被压缩,提高了磁盘的传输效率,使得查询的速度加快。(3)由于磁盘传输效率的提高,使得索引的构造和维护的效率也得到提高。(4)另外一个隐含点好处是,这样提高了倒排文件的缓存能力,因为压缩技术使得内存的利用率大大提高。
解析:暂无解析
5.传统文献
您可能关注的文档
最近下载
- 人教PEP版六年级上册Unit 5 What does he do 单元整体教学设计.pdf
- 2021年新生儿感染:抗菌药物预防性与治疗性使用指南解读(全文).pdf
- 《数字图像处理教程》试题库.pdf VIP
- 学校意识形态工作计划.pdf
- 战略模拟软件CESIM全攻略(课堂PPT).ppt
- 中国碳交易政策对可持续经济福利的影响.pptx VIP
- 反三违(典型“三违”)行为清单.docx
- (高清版)B-T 3836.1-2021 爆炸性环境 第1部分:设备 通用要求.pdf VIP
- 人教版高一化学必修一知识点梳理.docx
- 人教pep版英语三年级上册阅读理解专项复习试卷测试题(含答案).doc
文档评论(0)