- 1、本文档共68页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
自然语言处理的目标是让计算机具备和人类一样的语言理解能
力,向量表示技术可以将文本数据进行向量化,从而让计算机在大规
模未标注的文本数据中自动挖掘规律,获取重要的语义信息,让机器
具备和人类一样的语言理解能力。随着深度学习的发展,藏文向量表
示获取很多研究成果,但比英、汉还是缺乏实验对比,也没有公开的
藏文词向量语料库及评测集,所以还需要深入的研究藏文词和文档向
量表示。
本文首先对现有词向量模型的结构进行剖析,阐述各模型之间的
联系,对静态词向量模型和动态词向量模型两方面进行分类整理并总
结藏文词向量评价方法,最后本文对藏文文本分类任务所需的各类深
度学习模型进行了述和相关实验,同时本文对藏文词向量与文档表
示进行了相关研究,具体的研究工作如下:
1.收集藏文词向量与文档表示所需要的藏文数据,并对该数据进
行预处理,构建了一个包含104367篇藏文文本的数据集。
2.从静态词向量Word2vec到动态词向量ELMo、BERT以及
ALBERT四种词向量训练模型出发,利用本文所构建的数据集,对这
四种词向量模型进行实验。同时为验证数据量对藏文词向量模型的影
响,本文对数据集进行了4种数据量比例的划分并且在这四种不同数
据量的数据集上对四种词向量模型分别进行了相关实验,实验结果表
明:本文训练的藏文ALBERT模型是四种词向量模型中的最优模型。
I
为验证数据集中语料领域对词向量模型的影响,本文进行了相关实验,
实验结果表明:由于藏文语料数量的稀缺,针对具体任务进行词向量
模型的训练能够取得较好的效果。
3.本文出了基于BiGRU-TextCNN模型的藏文文档向量表示方
法,该模型能够灵活且较为快速地生成藏文文档的向量表示并且能够
应用于文本分类任务中。同时将该模型与藏文词向量模型在文本分类
上的效果进行对比,实验结果可以看出藏文文档向量表示的研究仍有
较大进步空间,需要进一步高模型构建藏文文档的能力。
4.本文通过相关实验得到了四个藏文词向量模型,其中藏文
ALBERT模型最为优秀。为了使研究者能够获得藏文词向量的表示,
本文设计实现了一个藏文词向量生成系统以供应用。
关键词藏文,词向量表示,文档表示,词向量生成系统
II
ABSTRACT
Thegoalofnaturallanguageprocessingistoequipcomputerswith
thesamelanguagecomprehensionabilityashumans.Vectorrepresentation
techniquescanvectorisetextdata,thusallowingcomputersto
automaticallyminepatternsinlarge-scaleunlabelledtextdataandobtain
importantsemanticinformation,sothatmachinescanhavethesame
languagecomprehensionabilityashumans.Withthedevelopmentofdeep
learning,Tibetanwordanddocumentvectorrepresentationshavealso
obtainedmanyresults,butTibetanwordanddocumentrepresentationsstill
lackexperimentalcomparisonsoverEnglishandChinese,andthereisno
publiclyavailableTibetanwordvectorcorpusandeva
文档评论(0)