中文口语化文本命名实体识别模型及其压缩方法.pdf

中文口语化文本命名实体识别模型及其压缩方法.pdf

  1. 1、本文档共69页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

智慧城市已经成为我国城市新的发展主题,如何通过人工智能技术为城市居民

创造更多便利是智慧城市的发展目标。自然语言处理相关技术决定着计算机与人的

交互效率,在人工智能技术中具有非常重要的地位。在日常的人机交互过程中,口

语化文本出现的概率大大提升,能否用命名实体识别技术准确地提取口语化文本中

的关键实体信息,直接决定着计算机理解人类语义的能力,进一步也会影响下游的

搜索、推荐和问答等任务的交互体验。目前主流的自然语言处理技术都依赖于大规

模无监督预训练的语言模型,辅以微调技术应用在不同的子领域。随着语言模型的

体量不断增加,在算力有限的情况下其响应速度会明显变慢从而影响交互体验,语

言模型的相关模型压缩技术可以在保证模型可靠性的前提下减少模型参数,提升模

型效率。

本文构造了一个含有大量口语化文本的城市生活领域背景下的命名实体识别数

据集ULNER,并提出一种适应于口语化文本的命名实体识别模型PERT-CRF-

Restorer。此外,为了在模型压缩过程中减少精度损失,本文提出了一种改进的知

识蒸馏框架MSDS-KD。

本文的具体工作如下:

(1)从某城市级网络论坛爬取了大量口语化文本,分析了该领域文本特性,

确定了实体识别任务的目标。对语料进一步清洗,利用远程监督标注基本实体,定

义了领域实体词典并通过词典回标标注领域实体,最后人工对标签进行修正,构造

了ULNER数据集。针对口语化文本中的实体识别任务,第一步引导模型学习检测

实体的最大边界,第二步提出Restorer模块学习标签中的字序信息对检测到的实体

进行还原,提出了PERT-CRF-Restorer方法,其识别精度优于多种主流的识别方案。

(2)针对在知识蒸馏过程中存在的Teacher-StudentGap问题,以输出值的标

准差作为锋利程度的评价标准,验证了在固定样本输出概率分布标准差的条件下使

用梯度下降法逼近温度值的可行性,通过匹配教师模型与学生模型输出概率分布的

标准差以减小Teacher-StudentGap。通过线性函数对教师模型软标签的标准差进行

控制,在训练的过程中以不断增大标准差并约束上下界,以匹配模型在训练过程中

的学习趋向,提出了基于软标签标准差匹配的知识蒸馏方法MSDS-KD,其蒸馏效

果在相关分类任务中优于多种主流的蒸馏方法。

关键词:口语化文本;命名实体识别;ULNER;PERT-CRF-Restorer;知识蒸

馏;Teacher-StudentGap;梯度下降法;MSDS-KD

IV

Abstract

SmartcityhasbecomeanewdevelopmentthemeofcitiesinChina.Howtocreate

moreconvenienceforurbanresidentsthroughartificialintelligencetechnologyisthe

developmentgoalofsmartcity.Naturallanguageprocessingtechnology,asthe

mainstreamwayofhuman-computerinteractioninthefuture,playsaveryimportantrole

inartificialintelligencetechnology.Inthedailyhuman-computerinteractionprocess,the

occurrenceofspokentextgreatlyincreases.Whetherthenamedentityrecognition

technologycanaccuratelyextractthekeyentityinformationinspokentextdirect

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档