中文信息处理与汉语研究.pptxVIP

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1 中文信息处理与汉语研究 —— 现状和发展 詹卫东 北京大学中文系 北京大学汉语语言学研究中心 北京,100871 zwd@ /doubtfire/ 全国语言文字信息化工作会议 · 湖南 · 长沙 · 2003.10.5 - 10.6 2 提 纲 中文信息处理研究的格局 中文信息处理的现状和发展趋势 语言知识资源的建设 面向中文信息处理的汉语研究 3 一 中文信息处理研究的格局 信息的两个层次: 符号层 —— 中文 / 汉语 / 汉字 内容层 —— 符号所承载的意义 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译……等等) (信号 vs. 信息) 4 符号层的信息处理 拼音文字:小字符集 —— 比较容易 非拼音文字:大字符集 —— 难度很大 汉字是一个大字符集 《说文解字》(东汉):9353字 《玉篇》(南朝)收录16,917字 《广韵》(宋代)收字26,194字 《字汇》(明朝)收录33,197字 《康熙字典》(清朝)收录47,043字 《汉语大字典》(1992年)5.6万 《中华字海》( 1994年) 8.6万 拉丁字母只有26个符号 斯拉夫字母只有33个符号 阿尔明尼亚字母只有38个符号 泰米尔字母只有36个符号 缅甸字母只有52个符号 泰文字母只有44个符号 老挝字母只有27个符号 藏文字母只有35个符号 韩文字母只有24个符号 日文假名只有48个符号 5 符号层的信息处理 汉字输入 自动输入 键盘输入 字形识别 声音识别 手写体识别 印刷体识别 在线手写 脱机手写 整字键盘 通用键盘 主辅式 感应式 形码 音码 形音结合码 1 2 3 4 5 6 7 8 9 6 内容层的信息处理 形态丰富的语言(inflecting language):处理难 形态不丰富的语言(analytic language):处理更难 汉语 英语 老师都来了 All professors came here. 张老师都来了 Even Professor Zhang came here. 编辑工作很难 Editing is very difficult. 如何当好编辑 How to become a good editor 7 内容层的信息处理 机器翻译全过程 8 内容层处理对符号层处理的反作用 9 内容层处理对符号层处理的反作用 10 内容层处理对符号层处理的反作用 11 内容层处理对符号层处理的反作用 12 二 中文信息处理的现状和发展趋势 现状 符号层的处理成果已经得到广泛应用; 中文输入/字库/字处理软件/排版/…… 内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索 13 系统演示 北京大学现代汉语分词/词性标注/句法分析系统(孙斌、刘群、常宝宝、詹卫东等) /nlp-tools/segtagtest.htm (北大计算语言所网上分词、标注、注音系统) 14 中文信息处理的发展趋势 发展趋势 信息产品的多样化 网络的迅速发展 积累更多基础资源, 开发更多应用系统。 内容层的处理将受到越来越多的重视 信息家电,内容计算,…… 15 三 语言知识资源的建设 现代汉语语法信息词典 基于配价理论的现代汉语语义词典 现代汉语短语结构信息库 2700万字现代汉语分词与词性标注语料库 句子对齐的汉英双语语料库 现代汉语树库 现代汉语短语结构规则库 16 资源演示 现代汉语语义词典(詹卫东、王惠等) 汉英平行语料库(常宝宝、柏晓静等) 现代汉语树库(詹卫东、常宝宝等) 17 四 面向中文信息处理的语言学研究 充分重视各个层次上的语言歧义研究 拓展语言现象的研究面 强调研究结果的可操作性,推动语言知识的形式化、系统化和规模化 加强语言知识库的工程建设,为中文信息处理(内容层的处理)积累更多基础资源 18 歧义示例 张 店 区 大 学 生 不 看 重 大 城 市 户 口 19 歧义示例(续) 有 三 百 多 种 树 20 歧义示例(续) 请 转告 李宇明 司长 下午 三点 出发 v v n n t t v 21 要让计算机“理解”一个句子,实际上要解决下面两个核心问题: (1)一个句子的结构和意义是什么? (2)如何得到一个句子的结构和意义? 第一个问题是“What”的问题,这是理论语言学关心的问题; 第二个问题是“How”的问题,这是计算语言学关心的问题, 也就是面向中文信息处理的语言研究需要关心的问题

文档评论(0)

118zhuanqian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档