一种组合型中文分词方法.docx

下载文档

0
0
约6.77千字
约 10页
2024-01-02 发布于辽宁
举报
版权申诉
保障服务

一种组合型中文分词方法.docx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种组合型中文分词方法

郑晓刚;韩立新;白书奎;曾晓勤

【摘要】Inthispaper,wedesignandimplementacombination-typewordsegmentationmechanism;thedictionary-basedlargesttwo-waymatching,thewordtagging-basedChinesewordsegmentationmethodandthehiddenMarkovsegmentationapproach.Bycomparingtheexperimentalresults,wefindthatthiscombination-typewordsegmentationmeanscanbettersolvetheChineseambiguityanddiscoverthenewword.%设计一种组合型的分词机制:基于字典的双向最大匹配，基于字标注的中文分词方法和隐马尔科夫的分词方式.通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词.

【期刊名称】《计算机应用与软件》【年(卷)，期】2012(029)007【总页数】4页(P26-28,39)【关键词】中文信息处理;中文自动分词;组合型分词【作者】郑晓刚;韩立新;白书奎;曾晓勤

【作者单位】河海大学计算机与信息学院江苏南京211100;河海大学计算机与信息学院江苏南京211100;河海大学计算机与信息学院江苏南京211100;河海大学计算机与信息学院江苏南京211100【正文语种】中文

【中图分类】TP301

0引言

分词对于搜索引擎有着很大的作用，是文本挖掘的基础，可以帮助程序自动识别语句的含义，以达到搜索结果的高度匹配，分词的质量直接影响了搜索结果的精确度。中文和英文的分词不一样，在英文中每个词是用空格分开的，不需要进行额外的分词处理，而在中文词中，每个句子中的词是没有空格的，需要用分词来处理。比较流行的方法有三个大类［1］：1）基于字符串匹配的分词方法；2）基于统计的分词方法；3）基于理解的分词方法。目前这些方法都已经很成熟，但是成熟并不代表着能够很好地解决中文分词的问题。歧义的判断和新词的识别是中文分词没有完全突破的问题，也是判断一个中文分词系统好坏的重要标准。

为了降低分词过程中歧义出现的概率和增加发现新词的机率，本文设计了一种组合分词方法。一个句子通过正向最大匹配和反向最大匹配得到分词的结果。如果得到的结果一致，那么说明这个句子没有歧义。如果得到的结果不一致，那么可以认为在两种匹配结果中，只有一种结果是正确的，需要通过学习来判断哪种方式得到的结果是正确的。为了增加新词发现的概率，本文通过预处理，使得隐马尔科夫的假设独立性对分词的影响进一步降低，分词结果更加准确。

1传统的分词方法［2］

1.1最大匹配法分词

最大匹配法分词是基于字符串匹配的常用解决方案。这种方法分词比较简单、便捷，但是无疑存在明显的缺陷，就是可能造成歧义和不能识别新词。基于字符串匹配的分词方法首先要有一个事先准备好的字典，如果在分词的过程中遇到一个字典中没有的词，那么就不能正确切分出来。如果从正向开始来匹配，当处理〃他们在研究生活”这句话，字典里有〃研究”、“研究生”、“生活”这些常用词时，该句子

会被切分为〃研究生|活”，这就是分词里的歧义现象。

1.2基于统计的分词

基于统计的分词方法主要应用的是统计量，统计模型［3,4］有:互信息、N元文法模型、神经网络模型［6］和隐Markov模型(HMM)模型等。这些统计模型主要利用词与词的联合出现概率作为分词的依据。其原理是从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。基于统计的分词方法的优点是：(1)不受待处理文本的领域限制；(2)不需要一个机器可读词典。缺点是：(1)需要大量的训练文本，用以建立模型的参数；(2)该方法的计算量非常大；(3)分词精度与训练文本的选择有关。

2组合型分词方法

正如前面所讲的传统的分词方法都有各自的优点和缺点，仔细分析可以发现基于统计的分词的方法可以克服最大匹配法分词不能发现新词，而最大匹配法分词同样可以解决基于统计的分词中计算量非常大和分词精度与训练文本的关系过于密切的缺点。正是基于这个想法，本文尝试用组合分词来设计一个新型的分词系统，在这个系统中，综合了最大匹