藏文词和文档向量表示研究与实现.pdf

下载文档

2
0
约7.85万字
约 68页
2024-01-10 发布于江苏
举报
版权申诉
保障服务

藏文词和文档向量表示研究与实现.pdf

1、本文档共68页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要

自然语言处理的目标是让计算机具备和人类一样的语言理解能

力，向量表示技术可以将文本数据进行向量化，从而让计算机在大规

模未标注的文本数据中自动挖掘规律，获取重要的语义信息，让机器

具备和人类一样的语言理解能力。随着深度学习的发展，藏文向量表

示获取很多研究成果，但比英、汉还是缺乏实验对比，也没有公开的

藏文词向量语料库及评测集，所以还需要深入的研究藏文词和文档向

量表示。

本文首先对现有词向量模型的结构进行剖析，阐述各模型之间的

联系，对静态词向量模型和动态词向量模型两方面进行分类整理并总

结藏文词向量评价方法，最后本文对藏文文本分类任务所需的各类深

度学习模型进行了述和相关实验，同时本文对藏文词向量与文档表

示进行了相关研究，具体的研究工作如下：

1.收集藏文词向量与文档表示所需要的藏文数据，并对该数据进

行预处理，构建了一个包含104367篇藏文文本的数据集。

2.从静态词向量Word2vec到动态词向量ELMo、BERT以及

ALBERT四种词向量训练模型出发，利用本文所构建的数据集，对这

四种词向量模型进行实验。同时为验证数据量对藏文词向量模型的影

响，本文对数据集进行了4种数据量比例的划分并且在这四种不同数

据量的数据集上对四种词向量模型分别进行了相关实验，实验结果表

明：本文训练的藏文ALBERT模型是四种词向量模型中的最优模型。

为验证数据集中语料领域对词向量模型的影响，本文进行了相关实验，

实验结果表明：由于藏文语料数量的稀缺，针对具体任务进行词向量

模型的训练能够取得较好的效果。

3.本文出了基于BiGRU-TextCNN模型的藏文文档向量表示方

法，该模型能够灵活且较为快速地生成藏文文档的向量表示并且能够

应用于文本分类任务中。同时将该模型与藏文词向量模型在文本分类

上的效果进行对比，实验结果可以看出藏文文档向量表示的研究仍有

较大进步空间，需要进一步高模型构建藏文文档的能力。

4.本文通过相关实验得到了四个藏文词向量模型，其中藏文

ALBERT模型最为优秀。为了使研究者能够获得藏文词向量的表示，

本文设计实现了一个藏文词向量生成系统以供应用。

关键词藏文，词向量表示，文档表示，词向量生成系统

ABSTRACT

Thegoalofnaturallanguageprocessingistoequipcomputerswith

thesamelanguagecomprehensionabilityashumans.Vectorrepresentation

techniquescanvectorisetextdata,thusallowingcomputersto

automaticallyminepatternsinlarge-scaleunlabelledtextdataandobtain

importantsemanticinformation,sothatmachinescanhavethesame

languagecomprehensionabilityashumans.Withthedevelopmentofdeep

learning,Tibetanwordanddocumentvectorrepresentationshavealso

obtainedmanyresults,butTibetanwordanddocumentrepresentationsstill

lackexperimentalcomparisonsoverEnglishandChinese,andthereisno

publiclyavailableTibetanwordvectorcorpusandeva

您可能关注的文档

文档评论（0）

136****6583 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：7043055023000005

1亿VIP精品文档

更多 >

藏文词和文档向量表示研究与实现.pdf