- 1、本文档共84页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecturequeryexpansion
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 课后练习 有待补充 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Rocchio 1971 算法 (SMART系统使用) qm: 修改后的查询; q0: 原始查询; Dr 、Dnr : 已知的相关和不相关文档集合 α, β, γ: 权重 新查询向相关文档靠拢而远离非相关文档 α vs. β/γ 设置中的折中: 如果判定的文档数目很多,那么 β/γ可以考虑设置得大一些 一旦计算后出现负权重,那么将负权重都设为0 在向量空间模型中,权重为负是没有意义的。 * 实际中使用的公式: * 正(Positive)反馈 vs. 负(Negative)反馈 正反馈价值往往大于负反馈 比如,可以通过设置 β = 0.75, γ = 0.25来给正反馈更大的权重 很多系统甚至只允许正反馈,即γ=0 * * 相关反馈中的假设 什么时候相关反馈能否提高召回率? 假设 A1: 对于某初始查询,用户知道在文档集中使用哪些词项来表达 假设A2: 相关文档中出现的词项类似 (因此,可以基于相关反馈,从一篇相关文档跳到另一篇相关文档) 或者: 所有文档都紧密聚集在某个prototype周围 或者: 有多个不同的prototype, 但是它们之间的用词具有显著的重合率 相关文档和不相关文档之间的相似度很低 * * 假设A1不成立的情况 假设 A1: 对于某初始查询,用户知道在文档集中使用哪些词项来表达 不成立的情况:用户的词汇表和文档集的词汇表不匹配 例子: cosmonaut / astronaut * * 假设A2不成立的情况 假设A2: 相关文档中出现的词项类似 假设不成立的查询例子: [contradictory government policies] 互相矛盾的政府政策 一些相关的文档集合,但是文档集合彼此之间并不相似 文档集合1:烟草种植者的补贴 vs. 禁烟运动 文档集合2:对发展中国家的帮助 vs. 发展中国家进口商品的高关税 有关烟草文档的相关反馈并不会对发展中国家的文档有所帮助 * * 相关反馈的评价 选择上一讲中的某个评价指标,比如 P@10 计算原始查询q0 检索结果的P@10指标 for original query 计算修改后查询q1检索结果的P@10指标 大部分情况下q1 的检索结果精度会显著高于q0! 上述评价过程是否公平? * * 相关反馈的评价 公平的评价过程一定要基于存留文档集(residual collection): 用户没有判断的文档集 研究表明采用,采用这种方式进行评价,相关反馈是比较成功的一种方法 经验而言,一轮相关反馈往往非常有用,相对一轮相关反馈,两轮相关反馈效果的提高有限。 * * 有关评价的提醒 相关反馈有效性的正确评价,必须要和其他需要花费同样时间的方法 相关反馈的一种替代方法: 用户修改并重新提交新的查询 用户更倾向于修改和重新提交查询而不是判断文档的相关性 并没有清晰的证据表明,相关反馈是用户时间使用的最佳方法 * * 课堂练习 搜索引擎是否使用相关反馈? 为什么? * * 相关反馈存在的问题 相关反馈开销很大 相关反馈生成的新查询往往很长 长查询的处理开销很大 用户不愿意提供显式的相关反馈 很难理解,为什么会返回(应用相关反馈之后)某篇特定文档 Excite搜索引擎曾经提供完整的相关反馈功能,但是后来废弃了这一功能 * 隐式相关反馈 通过观察用户对当前检索结果采取的行为来给出对检索结果的相关性判定。 判定不一定很准确,但是省却了用户的显式参与过程。 对用户非当前检索行为或非检索相关行为的分析也可以用于提高检索的效果,这些是个性化信息检索(Personalized IR)的主要研究内容,并非本节的主要内容。 * 用户行为种类 鼠标键盘动作: 点击链接、加入收藏夹、拷贝粘贴、停留、翻页等等 用户眼球动作 Eye tracking可以跟踪用户的眼球动作 拉近、拉远、瞟、凝视、往某个方向转 * 点击行为(Click through behavior) FIELD VALUE User ID 1162742023015 Time stamp 06/Nov/2006:00:01:35 Query terms 嫁给警察的理由 URL /dispbbs.asp?Star=4boardid=46id=346721page=1 Page number 1 Rank 7 Anchor text 姑娘们,你们愿意FONT color=#cc0033嫁给
您可能关注的文档
最近下载
- (完整word版)人教版四年级上册数学复习教案.doc VIP
- 煤矿安全操作规程(2023年).docx
- 工作相关肌肉骨骼疾患的工效学预防指南 第 4 部分 轨道交通设备制造作业.pdf VIP
- 园林景观工程施工计划.pdf
- OC IIS的定义(液晶玻璃的检验与不良判定).ppt VIP
- 2025届高考语文复习:文言文阅读+课件.pptx VIP
- 大班数学《坐船去探险》教案课件材料.doc VIP
- 工作相关肌肉骨骼疾患的工效学预防指南 第 6 部分 木质家具制造作业.pdf VIP
- 初中英语八年级上册首字母填空专项练习(共100题,附参考答案).doc
- 工作相关肌肉骨骼疾患的工效学预防指南 第 9 部分 公交车驾驶作业.pdf VIP
文档评论(0)