文档扫描图像批量自适应优化与归档.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文档扫描图像批量自适应优化与归档

文档扫描图像的批量自适应优化和归档   摘要:本文针对各种印刷和手写的纸质材料经过扫描仪扫描后形成的结果图像,甚至是老旧手写资料的扫描结果图像或图像质量不理想的历史扫描资料,通过对批量图像的共同特点进行分析,经算法设计,最终实现了对JPG、PDF等在内的多种格式扫描图像的批量性角度校正、去黑白边、高压缩比压缩和文档化归档处理,且着重介绍了算法的难点及其解决方案 关键词:倾斜校正;自动裁剪;自适应阈值分割;高压缩比压缩 中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)28-0217-03 Abstract:in this paper, a variety of printed and handwritten paper materials by scanning the results after the formation of the image, and even history scans of old handwritten data image or image quality is not ideal, by analyzing the common characteristics of batch image, the algorithm design, the final realization of the JPG, including a variety of PDF the bulk of the image format scan angle correction, go to the black and white edge, high compression ratio and document archiving, and emphatically introduces the algorithm of difficulties and solutions. Key words: tilt correction; automatic clipping; adaptive threshold segmentation; high compression ratio 1 引言 在将纸质文档通过图像扫描设备转换为文本图像并进一步进行归档的过程中,由于人为因素或机械设备误差的影响,文档图像普遍存在图像质量不理想的状况,一般包括图像有黑边或白边、某种程度的倾斜、对比度较差等问题;此外,要符合归档要求,图像文件的压缩格式和图像大小也必须符合特定的要求。只有将图像中存在的问题进行修正后再按要求归档,才有利于纸质材料的统一保存和归档管理,以进一步实现办公自动化的要求 我们在扫描文档时,会遇到的人为因素中,通常包括纸张放置存在倾角或纸张放置不平整的情况,这些人为因素会导致图像整体明暗不均或使扫描的图像在边缘处留有难看的黑边,另外,纸张大小不恰当也会使扫描的图像在边缘处有黑边或灰边。这些黑边或灰边与纸张的底色反差很大 目前,绝大多数的扫描仪都带有内置的图像处理模块。扫描仪自带的内置图像处理程序将重点放在图像清晰度的改善上,并不重视图像的倾斜校正和黑边等问题,且对图像最后的格式和压缩比采用通用算法设计,用户只能通过菜单选择图像文件的保存格式,而无法决定图像的压缩比。这样的内置图像处理模块不但无法完全适应办公自动化对图像处理的需要,更无法进行大批量图像的批量化自动处理,无法提高办公效率 目前,存在一些流行的扫描优化软件,即可以先将扫描图像保存起来,再安装此类优化软件,对图像进行进一步优化。这一类的优化软件通常可以对扫描图像进行基本的修正,如旋转、黑边补白、裁剪、改变文件格式等。但是,这些软件中使用的优化方法,都是利用手动输入参数的操作方法来实现的,这需要使用者先自行观察图像中存在的问题,然后点击相应菜单并输入自己估算的参数。例如,图像旋转校正的角度是由用户手动输入的,如果发现结果不理想,再调整参数。这样的逐张手动处理的方法是无法实现扫描图像的自动化和批量化处理的 目前,还存在少数第三方的硬件驱动程序,可以直接优化底片扫描的结果,但是多数没有实现自动批量处理 本文在总结上述软件优缺点的基础上,提出了一种新的纸质材料扫描图像自动化批量处理流程。本文将处理过程分为二值化、倾角检测、旋转校正、去边、压缩等步骤,使每一步都能自动执行并能够一次性处理批量图像。在倾角检测中,利用Radon变换,快速、准确地计算出对应的文本行的方向角,从而得到整个页面的倾斜角。通常页面倾斜旋转校正采用旋转变换的方法 2 二值化 由于原始扫描结果图像一般保存为JPG格式或PDF等格式,且默认保存为真彩色图像。首先应该对扫描结果图像进行二值化处理,将其作为黑白图像

文档评论(0)

linsspace + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档