面向家谱小传文本的地址实体识别及可视化系统.pdf

面向家谱小传文本的地址实体识别及可视化系统.pdf

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 摘 要 家谱作为我国三大历史文献之一,属于珍贵的人文资料和文化遗产,其记载了家族世 系和人物事迹等信息。家谱中的数据对于历史学、人口学、地理学等方面的研究有着不可 估量的价值。越来越多的学者针对家谱数据展开了广泛的研究。家谱文本中的地址信息是 研究人口历史迁徙的重要依据。随着信息技术的发展,有学者尝试采用命名实体识别技术 (Named Entity Recognition ,NER)实现地址实体的自动提取。然而,由于受到家谱文本表示 形式和训练样本数量的限制,传统的命名实体识别技术很难直接适用于家谱地址实体的自 动识别与提取。 针对以上问题,本文在真实家谱数据的基础上,提出了一种改进的基于条件随机场的 家谱小传中的地址实体自动识别方法,并针对家谱可视化系统的设计与实现展开了讨论。 本文提出的方法一方面实现了家谱小传文本中地址实体的自动识别与提取,进而为家族迁 徙研究提供了技术和数据支持,另一方面本文的研究也为古文本中命名实体识别的研究提 供了一定的理论参考。具体地,本文的主要工作包括如下几个方面: (1) 阐述了将命名实体识别应用到家谱小传文本的背景与意义,并分析了命名实体识 别、家谱以及古汉语实体识别的研究现状。 (2) 针对家谱中文本数据的特点,通过对比几种常用的基于统计机器学习的命名实体 识别模型,最终选择条件随机场(Conditional Random Fields ,CRF)模型来实现家谱文本中 地址命名实体的自动识别。进一步地,基于真实的家谱文本数据,提出了符合家谱文本特 点的特征标注方法,并针对训练后的模型进行了测试。实验结果表明,本论文提出的方法 在准确率、召回率和F1 值三个度量指标方面相比于其它模型具有一定的优势。 (3) 基于(2) 中提出的地址命名实体识别模型,论文详细阐述了一个面向家谱文本的地 址实体自动识别与可视化系统的设计与实现过程。具体地,论文首先提出了系统的总体架 构、功能模块以及数据库的设计方案;然后分别对个人迁徙可视化、单分支迁徙可视化、 家族迁徙、家谱世系图等信息的可视化实现进行了详细地介绍。 关键词:命名实体识别,家谱小传文本,条件随机场,可视化 I 目录 目 录 摘 要I Abstract II 第1 章 绪论 1 1.1 研究背景与意义 1 1.2 国内外研究现状2 1.2.1 命名实体识别国内外研究现状2 1.2.2 家谱国内外研究现状3 1.2.3 古汉语实体识别研究现状4 1.3 研究内容4 1.4 论文组织结构5 第2 章 命名实体识别相关理论和方法6 2.1 命名实体识别的概念6 2.2 命名实体识别的难点6 2.2.1 中文命名实体识别的难点6 2.2.2 中文地名实体识别的难点7 2.3 基于规则和词典的方法7 2.4 基于统计机器学习的方法8 2.4.1 隐马尔科夫模型9 2.4.2 最大熵模型 11 2.4.3 条件随机场模型 13 2.4.4 模型之间的比较 15 2.5 MIRA 算法 16 第3 章 家谱小传地址实体识别方法 17 3.1 家谱数据特点 17 3.2 基于CRF 的家谱小传地址实体识别 18 3.2.1 识别流程 18 3.2.2 地址数据标注 19 3.2.3 特征标注21 3.2.4 模型训练25 3.3 实验结果评估27

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档