一个人机互助的汉语语料库多级加工处理系统CCMP.PDF

一个人机互助的汉语语料库多级加工处理系统CCMP.PDF

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一个人机互助的汉语语料库多级加工处理系统CCMP

一个人机互助的汉语语料库多级加工处理系统CCMP* 周强 俞士汶 北京大学计算语言学研究所 北京, 100871 : 摘要 本文简要介绍了一个人机互助的汉语语料库多级加工处理系统的概况,包括它的设计思想和总体 结构框架;并给出了短语自动划分和标注处理子系统的算法和实验结果。最后提出了进一步增强、改进 系统的一些设想。 A man-machine mutually-dependent multistage processing system of Chinese language corpus Zhou Qiang, Yu Shiwen Institute of Computational Linguistics, Peking University Beijing, 100871 ABSTRACT : In this paper, we introduce the survey of a man-machine mutually-dependent multilevel processing system of Chinese language corpus, including its designing idea and overall framework. Then, we describe the main algorithms and experimental results of an important sub-systems: the phrase bracketing and tagging sub- system. At last, we also propose some tentative ideas for improving the system in future. 1. 引 言 对原始语料进行多级加工处理,是语料库语言学研究的基础。为此,国外在这方面花 费了大量的财力和物力,比较大的研究项目包括:英国 Lancaster 大学 UCREL 的 Lancaster Treebank 项目,从1986年到1994年的九年间,陆续开发了CLAWS1, CLAWS2, CLAWS3, CLAWS4等数个功能不同的词类自动标注工具([MI83],[GLS87], [LGB94]) ,并在语料库句 法分析和标注方面积累了许多有益的经验([LG91]) 。美国 Pennsayvania 大学的 Penn Treebank 项目([MSM93]) ,通过吸收和改造一些现有的语料处理工具,如:Church 的词类 标注工具([CW88])和 Hindle 的 Fidditch 句法分析器([HD89]),形成了一个完整的语料库加 工处理系统。另外,它的一大特点是开发了功能强大、操作简单的语料校对工具,大大提 高了人工校对的效率。 近几年来,对汉语语料库加工处理的研究也逐渐开展了起来,并在自动切词 ([LNY87],[XHS91]) 、词性标注([BXH92],[BXH92])和依存关系标注([ZH94], [LZH93])方面 取得了可喜的成果。但由于各方面条件的限制,还没能形成一个完整的汉语语料库多级加 工处理系统。 * 本课题受国家自然科学基金资助。发表于陈力为,袁琦主编,《计算语言学进展与应用》,清华大学出 版社,50-55 。 从1992年初开始, 北大计算语言学研究所开始进行汉语语料库的多级加工处理研究, 经过几年的努力,提出了一些新的处理方法,开发和积累了许多有用的处理工具,逐渐形 成了一个较为完整的汉语语料库多级加工处理系统。 本文将对这一系统的设计思想、总体结构和基本功能作一简要介绍。其中,第2节通 过一个典型的语料加工模型阐述了系统的基本设计思想;第3节给出了系统总体框架;第 4节则简要介绍了系统的一个主要子系统( 即短语自动划分_标注) 的基本算法,并给出了目 前的一些实验结果。最后,在结语

文档评论(0)

wyw118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档