- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;;?档智能的技术范畴;?档智能的技术范畴;?融领域的?档智能;常?的?融?档;?融?档的特点①:?数多,版?复杂,样式丰富;?融?档的特点②:??歪曲,清晰度低,?尺??本数量多且密集,关键信息被覆盖;?档分析与识别;?档检测:?档/??档分类、?档类型分类
图像矫正:?向矫正、倾斜矫正、变形矫正
图像增强:对?度增强、去噪、去印章、去?印;版?分析的?的是将?档图像分割成不同类型内容的区域并分析区域之间的关系,是内容识别的前续步骤
?标检测或实例分割的路线,采?YOLO、FasterR-CNN、MaskR-CNN等框架
近年来随着基于VisionTransformer和多模态技术的提出,版?分析技术得到进?步发展
[DiT,ACM-MM-2022]DiT:Self-supervisedPre-trainingforDocumentImageTransformer
[VSR,ICDAR-2021]VSR:AUnifiedFrameworkforDocumentLayoutAnalysiscombiningVision,SemanticsandRelations
[VGT,ICCV-2023]VisionGridTransformerforDocumentLayoutAnalysis
[LayoutLMv3,ACM-MM-2022]LayoutLMv3:Pre-trainingforDocumentAIwithUnifiedTextandImageMasking;基题于提升M明as显kR-CNN的?法,使?Swin-Transformer(Swin-T)替换ResNet-50,检测区域遗漏或不完整的问;使段?落和VS表R格等附基注于)多的模识态别技精术度的提?升法明,显和基于?标检测和语义分割的?法相?,视觉上相似的?标区域(例如;简单场景?平?字检测
多?向?字检测
复杂场景的任意形状?字检测;基于回归的?法;基于图像分割的?法;回归与分割混合的方法;印刷体?本识别
?写体?本识别;基于CTC的?法;基于RNNAttention的?法;基于TransformerAttention的?法;端到端?本检测与识别;?顶向下的?类分割?法
?底向上的单元格检测?法
由图??成序列的端到端?法;?顶向下的?列分割?法;?底向上的单元格检测?法;由图??成序列(image-to-sequence)的端到端?法;?融?档中表格的特点①:结构复杂,合并单元格多层嵌套;?融?档中表格的特点②:?列密集,??标多,存在单元格数量很多的表格;?融?档中表格的特点③:单元格?量空?或?量换??本;?融?档中表格的特点④:仅凭视觉信息?法正确判断表格结构,需要进?步学习?本信息;我线们进????检作测,-股最权后结?构成图股识权别关:系基三于元组Oriented-RCNN,使?改进后的关键点检测对股权图的节点和;?档理解;股权变动事件抽取;;;;;;?档智能未来展望;?档智能在?融领域?临的挑战和问题
LLMs,MLLMs,LVLMs等?命性?模型技术的冲击和启?
?档智能研究的前沿趋势及未来展望;
文档评论(0)