- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2024年信息检索考试题库
1.现代信息检索的基本流程
正确答案:完整的信息检索处理过程如图7-1所示,包括用户信息需求的表达、待检索文档
集的索引构建、查询条件与索引文档的匹配以及用户反馈环节。其中,关键词、问句以及
检索中的用户画像与个性化检索,可看作是需求表达环节,词项提取与倒排索引构建可看作
是索引构建的工作,后面提到的布尔检索模型、向量空间模型等检索模型可用于解决匹配
问题,而相关反馈处理与日志挖掘,则属于反馈环节。
解析:暂无解析
2.倒排索引的工作流程
正确答案:首先,文件解析模块负责从不同格式的文件之中,提取出可供检索之用的文本内
容,作为建立倒排索引的原始数据来源,例如,从网页文档、纯文本文件、PDF、各类办公格
式的文件、压缩文件之中提取出待索引的文本内容。其次,词条切分模块负责把连续的文
本字符数据,转换为词语级别的可处理单元。由文本分割形成的词语单元,称为词条
(Token)。然后,语言分析模块将传入的词条逐一分析,转换为规范的形式,例如,把英文的
单、复数形式统一转换为单数形式,把大写字母统一转换为小写字母。词条规范化处理之
后得到的结果称为词项(Term)。最后,索引构建模块根据文档的词项序列,构建倒排索引,
以支持后续的快速检索功能
解析:暂无解析
3.索引构建的常用方法。
正确答案:词项-文档关联矩阵1)把所有的词语和文档之间的关系,以二维表格的方式组织
到一起,称为词项-文档关联矩阵。2)矩阵每一行的数字构成的序列称为该词项的文档向
量,表示该词项在哪些文档中出现过,出现时对应位置为1,未出现时对应位置为0。3)我
们把逐个扫描文档查找词语的过程,转变为从已有词项-文档关联矩阵中寻找定位词语所在
文档的过程。倒排索引词项-文档关联矩阵可以有效地实现对词语的检索,但是当文档集
合规模变大时,词项-文档关联矩阵也会随之变得庞大。为此,人们把每篇文档用一个唯一
的数字来表示,该数字称为文档ID,通常简写为docID。整个词项-文档关联矩阵分成两部
分,即词项构成的词典和每一个词项所出现的文档ID列表。由词项映射到所出现的文档
的信息组织方式称为倒排索引。
解析:暂无解析
4.索引压缩的目的是什么,有哪些方法?
正确答案:对倒排文件进行适当的压缩,不仅可以减少占用的内存和磁盘的空间,还可以提
高磁盘的吞吐量,从而提高维护和查询索引的效率。压缩技术一般分为有损压缩和无损压
缩两类。去停用词、词干提取等技术属于有损压缩,因为在使用这些技术时会损失一些原
文中的信息。倒排文件的无损压缩技术,即在压缩倒排文件的同时,其原始信息完全被保留,
不会缺损。由于倒排文件由词汇表和记录表两部分组成,因此对倒排文件的压缩也需要从
这两方面考虑。(1)词汇表的压缩在检索的时候,需要经常查询词汇表,理想情况下,应将
词汇表始终置于内存之中。但随着索引文档数量的增多,词汇表也将逐渐增大,若不对其进
行压缩,很可能造成内存不足;同时,对于某些内存有限的应用,更需要节约内存;另外词汇
表过大还会造成加载缓慢等问题;对于桌面检索系统,因为需要雨其他程序共享内存资源,
也要求词汇表必须尽量的小。可见,对词汇表进行压缩是非常必要的。最简单和常用的词
汇表存储结构是使用定宽数组存储单词表,即使用固定大小的数组表示一个单词。这种表
示方式存在两个缺点:1浪费存储空间;2不能表示所有的词。为了克服这些缺点,可以
使用一个长字符串连续存储单词表,这样的存储方式既紧凑,又不会出现溢出问题。(2)
记录表的压缩在倒排文件中,一般使用16位或32位整数表示文档和单词的位置的绝对编
号,因为这种机器字长对齐的表示方式适用于多数编译器和处理器。然而,16位的无符号
整数在实际中是很容易造成溢出的,因此需要花费更多的字节来存储,如32位。为了解决
上面的矛盾,节省更多的空间,人们经常使用文档编号和单词位置的相对变化来表示。通过
这种记录相对变化的表示方法,就可以用比较少的字节表示编号的相对变化。而这种整数
的定长表示节省的空间有限,一般使用变长整数来表示这种相对变化,。其基本原理就是使
用较少的位数表示较小但出现次数较多的整数;而较大的整数,因其出现的次数较少,可使
用较多的位数表示。由于多数单词出现的文档编号相对变化数字较小,所以从整体来看,这
种方法可以大大压缩存储空间。上面介绍的倒排文件压缩技术的优点是相当明显的:(1)
降低了索引在内存和磁盘中占用的空间,经过适当的压缩,索引的大小可以降为原始文档的
25%左右。(2)由于索引被压缩,提高了磁盘的传输效率,使得查
您可能关注的文档
- 2024年保健按摩师初级考试题库.pdf
- 2024年心理咨询专业考试题库.pdf
- 2024年现代咨询方法与实务考试题库.pdf
- 2024年市场业务通道考试题库.pdf
- 2024年人工智能导论考试题库.pdf
- 知乎23届校招数据分析试题.pdf
- 2024年二级乐理试题.pdf
- 计算机信息检索 历年单选真题.pdf
- 2024年灭火高级技师考试题库.pdf
- 2024年灭火高级技师考试题库.docx
- Haier海尔413升风冷变频多门冰箱 BCD-413WGHFD1BSJU1(白)说明书用户手册.pdf
- Siemens西门子工业抽屉式断路器主回路后垂直连接 抽屉式断路器主回路后垂直连接使用手册.pdf
- Samsung三星智能佩戴设备 Galaxy Fit3安全手册.pdf
- Samsung三星滚筒洗衣机 AI神 黑钻热泵洗烘旗舰 WD18DB8995BZSC使用手册.pdf
- Sakura樱花消毒柜 保洁柜消毒柜 SCQ-130D6用户手册说明书.pdf
- Hifiman头领科技ARYA UNVEILED说明书用户手册.pdf
- Siemens西门子工业抽屉式主回路连接前置端子 支撑件 抽屉式主回路连接前置端子 支撑件使用手册.pdf
- Siemens西门子工业中性线的外部电流传感器 中性线的外部电流传感器使用手册.pdf
- Siemens西门子工业电子脱扣单元 电子脱扣单元使用手册.pdf
- Razer雷蛇Playstation 专用雷蛇战锤狂鲨极速版 RZ12-038203 用户指南 (简体中文)说明书用户手册.pdf
最近下载
- 图纸版次及产品标识管理规定.doc VIP
- (完整)康复医学词汇.pdf
- GB/T 2424.5-2021环境试验 第3部分:支持文件及导则 温度试验箱性能确认.pdf
- 高速公路施工调查报告.pdf VIP
- 商务星球版八年级地理上册:第四章-中国的经济与文化复习课件(共49张).ppt VIP
- 图书管理系统-需求规格说明书格式.doc VIP
- 上海初中物理14个重要实验+重难点标注(解析版).pdf VIP
- 本科毕业论文设计 -薪酬管理研究.doc VIP
- 人教版小学二年级上册音乐全册教案.pdf VIP
- GB∕T 2424.1-2015 环境试验 第3部分:支持文件及导则 低温和高温试验.pdf
文档评论(0)