文档智能:数字化转型的技术基石.pdfVIP

文档智能:数字化转型的技术基石.pdf

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

文档智能:数字化转型的技术基石

随着数字化进程的加快,文档、图像等载体的结构化分析和内容

提取成为关乎企业数字化转型成败的关键一环,自动、精准、快速的

信息处理对于生产力的提升至关重要。以商业文档为例,不仅包含了

公司内外部事务的处理细节和知识沉淀,还有大量行业相关的实体和

数字信息。人工提取这些信息既耗时费力且精度低,而且可复用性也

不高,因此,文档智能技术(DocumentIntelligence)应运而生。

文档智能技术深层次地结合了人工智能和人类智能,在金融、医

疗、保险、能源、物流等多个行业都有不同类型的应用。例如:在金

融领域,它可以实现财报分析和智能决策分析,为企业战略的制定和

投资决策提供科学、系统的数据支撑;在医疗领域,它可以实现病例

的数字化,提高诊断的精准度,并通过分析医学文献和病例的关联性,

定位潜在的治疗方案。

什么是文档智能?

文档智能主要是指对于网页、数字文档或扫描文档所包含的文本

以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提

取以及信息归纳的过程。

文档智能技术

在过去的30年中,文档智能的发展大致经历了三个阶段。90年

代初期,研究人员大多使用基于启发式规则的方法进行文档的理解与

分析,通过人工观察文档的布局信息,总结归纳一些处理规则,对固

定布局信息的文档进行处理。然而,传统基于规则的方法往往需要较

大的人力成本,而且这些人工总结的规则可扩展性不强,因此研究人

员开始采用基于统计学习的方法。随着机器学习技术的发展和进步,

基于大规模标注数据驱动的机器学习模型成为了文档智能的主流方法,

它通过人工设计的特征模板,利用有监督学习的方式在标注数据中学

习不同特征的权重,以此来理解、分析文档的内容和布局。

基于深度学习特别是预训练技术的文档智能模型,近几年受到越

来越多的重视,大型科技公司纷纷推出相应的文档智能服务,包括微

软、亚马逊、谷歌、IBM、阿里巴巴、百度等在内的很多公司在这个

领域持续发力,对于许多传统行业的数字化转型提供了有力的支撑。

随着各类实际业务和产品的出现,文档智能领域的基准数据集也

百花齐放,这些基准数据集通常包含了基于自然语言文本或图像的标

注信息,涵盖了文档布局分析、表格识别、信息抽取等重要的文档智

能任务,它们的出现也推动了文档智能技术的进一步发展。

文档智能相关的基准数据集

传统的文档理解和分析技术往往基于人工定制的规则或少量标注

数据进行学习,这些方法虽然能够带来一定程度的性能提升,但由于

定制规则和可学习的样本数量不足,其通用性往往不尽如人意,而且

针对不同类别文档的分析迁移成本较高。随着深度学习预训练技术的

发展,以及大量无标注电子文档的积累,文档分析与识别技术进入了

一个全新的时代。

微软亚洲研究院提出的LayoutLM便是一个全新的文档理解模型,

通过引入预训练技术,同时利用文本布局的局部不变性特征,可有效

地将未标注文档的信息迁移到下游任务中。LayoutLM的论文(论文

链接:/abs/1912.13318)已被KDD2020接收,并将在下周举行的

KDD大会上进行分享。同时,为了解决文档理解领域现有的数据集标

注规模小、标注粒度大、多模态信息缺失等缺陷,微软亚洲研究院的

研究员们还提出了大规模表格识别数据集TableBank和大规模文档布

局标注数据集DocBank(论文链接:/abs/2006.01038),利用弱监

督的方法,构建了高质量的文档布局细粒度标注。

LayoutLM:在预训练阶段实现文本和布局信息对齐

大量的研究成果表明,大规模预训练语言模型通过自监督任务,

可在预训练阶段有效捕捉文本中蕴含的语义信息,经过下游任务微调

后能有效的提升模型效果。然而,现有的预训练语言模型主要针对文

本单一模态进行,忽视了文档本身与文本天然对齐的视觉结构信息。

为了解决这一问题,研究员们提出了一种通用文档预训练模型

LayoutLM[1][2],选择了文档结构信息(DocumentLayout

Information)和视觉信息(VisualInformation)进行建模,让模型

文档评论(0)

198****2362 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档