互联网+背景下语言文字信息处理技术与应用发展现状研究.docx

互联网+背景下语言文字信息处理技术与应用发展现状研究.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

“互联网+”背景下语言文字信息处理技术与应用发展现状研究

?

?

黎谦

摘要:语言文字信息处理技术奠定了人机交互的技术基础,成为人工智能的热门领域。该项技术既是实现人机交流的突破点,也是当下衡量国家现代化水平的一项重要指标。该文阐述了语言文字信息处理的技术,并探究了该技术在“互联网+”背景下的应用发展现状。

关键词:“互联网+”语言信息处理;机器翻译;信息检索

:TP3????:A

:1009-3044(2020)30-0194-02

语言文字信息处理技术是将人类在互动交流时所使用的语言处理转化为计算机可以理解的机器语言的一种技术,它是以语言能力为研究对象的模型和算法框架,是涉及语言学、计算机科学的交叉研究领域[1]。在“互联网+”时代,该技术的创新和突破既能够推动人机智能的发展,带来计算技术的革命,又能让人类进一步认识自身的思维和语言文字,更加重视对语言的教学和学习。

1语言文字信息处理的技术分析

1.1语言文字信息处理基础技术

1)词法分析

组成句子的基本单元是词。词法分析具体指的是先把句子中的字符串转变为词串,之后给句中所有词加句法范畴标记的过程。汉语是一种表意文字,它是以汉字作为单位的。对汉字的处理技术包括三步:一是汉字编码,二是汉字输入,三是汉字输出。在处理具体的汉语句子之前要做的就是先将句中的单词切分出来。目前机器自动分词的方法有两种,一是最大匹配法,二是最大概率法。而对屈折性语言(如英语)进行词法分析时,需要适当处理其词尾、前缀、后缀等,将词形还原。

词性即词汇所具有的基本语法属性。词性标注即判断句中词的语法范畴,明确其词性并标注出来的过程。标注的关键和难题在于消除歧义。一般词性标注所采用的方法有基于统计和基于规则两种。词法分析的另一个主要任务就是词义标注,重点问题在于怎样在具体句子中确定多义词的义项。在标注词义时,往往先明确语境,再标注词义。其方法也有基于统计和基于规则两种。

2)句法分析

句法分析的目的在于识别句中成分及它们的相互关系,明确该句的句法结构。判断单词序列是否符合给定语法,并对符合的句子进行句法结构分析。一般用来完成此种分析任务的程序模块被称作句法分析器。句法分析分浅层句法分析和完全句法分析两种。前者用来对句中结构简单的成分进行识别,后者则更为复杂,要通过句法分析得出句子的完整的句法树。

3)语义分析

语义分析即计算机在分析某个文档语义内容的基础上对其进行学习和理解。语义分析根据语言单位不同可分成篇章级、句子级和词汇级三个级别。词汇级的任务在于获得词语的具体意义,句子级的任务则在于分析句子的整体语义,篇章级的任务则在于提取文本结构,阐明文本单元彼此间所具有的语义关系。

4)篇章分析

篇章分析的目的在于明确篇章的结构,并概括提炼篇章的特征。通常篇章的基本结构分析,往往意味着对文本内部关系结构进行探究,即逻辑、指代、功能、事件或者话题等结构。

5)生成自然语言

生成自然语言指的是计算机在关键信息基础上加之机器表达形式,模拟人类写作并最终生成质量较高的自然语言文本内容的一种技术。基于深度学习的方法、基于知识检索的方法和基于规则的方法都是较为常用的生成方法。

1.2语言文字信息处理的应用技术

语言文字信息处理除了能够处理文本,为大数据应用提供服务,它自身也有一些应用技术,比如机器写作、信息抽取、阅读理解、对话等,能夠应用在科技服务、在线教育、信息检索等社会的各个方面。

1)信息抽取和构建知识图谱

信息抽取的含义是计算机识别某个文档的结构化信息并最终生成。之后再将这些从文档中抽取出来的结构化信息按特定形式集中起来。应注意的是,信息抽取只分析文档的部分信息。在语言文字信息处理领域,知识图谱构建是热点,它包括事件抽取、实体识别、关系抽取、实体属性识别等。其任务为知识的建模、融合、赋能、图谱构建、推理计算等[2]。

2)智能写作和智能问答

智能写作的含义是计算机将自然语言生成器和算法作为自己的工具去“书写”文本。智能问答则更复杂,需要把握问答的目的、正确理解语言的深层意思、搜索符合问答主题的知识,问答系统的功能往往有分析、分类、理解和答案的检索、匹配、生成等。

2语言文字信息处理技术的应用发展研究

2.1信息检索

信息检索系统的工作通常包括四部分:一是处理文献信息,通过分析提取关键信息后,建立数据库或者转换文档;二是提问处理,对用户输入的查询词进行解释;三是匹配问题,即匹配查询提问和数据库及转换文档之中的内容;四是按照特定顺序将查询结果显示出来。信息检索需要利用自然语言检索和标引,它的每个阶段都离不开语言文字信息处理技术的应用。

1)处理文献信息

第一,自然语言标引,即计算机提取能够表征文档内容的信息或特征词加以标引。计算机自动标引是常用标引方式,其目的在于让文献拥有标引词,以

文档评论(0)

139****2257 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档