藏文词和文档向量表示研究与实现.pdf

藏文词和文档向量表示研究与实现.pdf

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

自然语言处理的目标是让计算机具备和人类一样的语言理解能

力,向量表示技术可以将文本数据进行向量化,从而让计算机在大规

模未标注的文本数据中自动挖掘规律,获取重要的语义信息,让机器

具备和人类一样的语言理解能力。随着深度学习的发展,藏文向量表

示获取很多研究成果,但比英、汉还是缺乏实验对比,也没有公开的

藏文词向量语料库及评测集,所以还需要深入的研究藏文词和文档向

量表示。

本文首先对现有词向量模型的结构进行剖析,阐述各模型之间的

联系,对静态词向量模型和动态词向量模型两方面进行分类整理并总

结藏文词向量评价方法,最后本文对藏文文本分类任务所需的各类深

度学习模型进行了述和相关实验,同时本文对藏文词向量与文档表

示进行了相关研究,具体的研究工作如下:

1.收集藏文词向量与文档表示所需要的藏文数据,并对该数据进

行预处理,构建了一个包含104367篇藏文文本的数据集。

2.从静态词向量Word2vec到动态词向量ELMo、BERT以及

ALBERT四种词向量训练模型出发,利用本文所构建的数据集,对这

四种词向量模型进行实验。同时为验证数据量对藏文词向量模型的影

响,本文对数据集进行了4种数据量比例的划分并且在这四种不同数

据量的数据集上对四种词向量模型分别进行了相关实验,实验结果表

明:本文训练的藏文ALBERT模型是四种词向量模型中的最优模型。

I

为验证数据集中语料领域对词向量模型的影响,本文进行了相关实验,

实验结果表明:由于藏文语料数量的稀缺,针对具体任务进行词向量

模型的训练能够取得较好的效果。

3.本文出了基于BiGRU-TextCNN模型的藏文文档向量表示方

法,该模型能够灵活且较为快速地生成藏文文档的向量表示并且能够

应用于文本分类任务中。同时将该模型与藏文词向量模型在文本分类

上的效果进行对比,实验结果可以看出藏文文档向量表示的研究仍有

较大进步空间,需要进一步高模型构建藏文文档的能力。

4.本文通过相关实验得到了四个藏文词向量模型,其中藏文

ALBERT模型最为优秀。为了使研究者能够获得藏文词向量的表示,

本文设计实现了一个藏文词向量生成系统以供应用。

关键词藏文,词向量表示,文档表示,词向量生成系统

II

ABSTRACT

Thegoalofnaturallanguageprocessingistoequipcomputerswith

thesamelanguagecomprehensionabilityashumans.Vectorrepresentation

techniquescanvectorisetextdata,thusallowingcomputersto

automaticallyminepatternsinlarge-scaleunlabelledtextdataandobtain

importantsemanticinformation,sothatmachinescanhavethesame

languagecomprehensionabilityashumans.Withthedevelopmentofdeep

learning,Tibetanwordanddocumentvectorrepresentationshavealso

obtainedmanyresults,butTibetanwordanddocumentrepresentationsstill

lackexperimentalcomparisonsoverEnglishandChinese,andthereisno

publiclyavailableTibetanwordvectorcorpusandeva

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档