[发明专利]基于照相机的文档成像有效
申请号: | 200980125859.2 | 申请日: | 2009-05-06 |
公开(公告)号: | CN102084378A | 公开(公告)日: | 2011-06-01 |
发明(设计)人: | M·亨特;M·帕夫罗斯卡亚;L·戈登;W·蒂普顿;T·普哈姆;D·永;顾卫青;J·埃根;吴梁楠;K-C·旺 | 申请(专利权)人: | 计算机连接管理中心公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 邹姗姗 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 照相机 文档 成像 | ||
对相关申请的交叉引用
本专利申请根据35U.S.C.119(e)请求于2008年5月6日提交的美国临时申请第61/126,781号和于2008年5月6日提交的美国临时申请第61/126,779号的优先权,这两个申请都通过引用并入于此。
技术领域
本申请总体上涉及数字图像处理,尤其涉及处理照相机拍摄的图像。
背景技术
文档管理系统正变得越来越流行。这种系统减轻了存储和处理大型文档数据库的负担。许多机构在物理文档中存储了大量信息,为了易于管理,他们希望将这些物理文档转换成数字格式。目前,光学扫描和光学字符识别(OCR)技术的组合(例如在ABBYY-FineReaderPro 8.0中所体现的)将这些文档转换成电子形式。然而,这个过程可能是不方便的,尤其是对于如装订本或海报的媒体形式,这些形式很难快速并准确地扫描。此外,准备文档然后扫描它们的过程可能是缓慢的。
存储美观且只包含较小变形的图像是优选的。当图像包含严重的变形时,由于变形的影响使得这些图像更难读。而且,光学字符识别假定输入的图像不包含变形。对本申请来说,没有显著变形的文档图像在此称为是“理想的图像”。
在许多情况下,现代的数码照相机具有改善数字化过程的潜能。照相机通常比扫描仪更小更容易操作。而且,文档在被照相机捕捉之前不需要太多准备。例如,海报或者标牌可以留在墙上。这种灵活性的缺陷是将缺陷引入到了图像中。照相机所捕捉的照片可能以对被扫描图像来说不存在的方式变形。最显而易见的影响是由于透视、照相机透镜、不均匀的照明条件和物理上卷曲的文档造成的变形。当前的OCR技术预期其输入来自扫描仪,因此不执行必要的预处理来处理以上提到的所捕捉文档图像中的变形。OCR技术是文档管理软件中处理图像的关键部分,因此当捕捉文档图像时由照相机引入的变形使得当前照相机不是扫描仪的满意替代。因此,展开(dewarp)照相机捕捉的文档图像并除去变形是从扫描仪过渡到照相机的必要过程。
关于图像校正的大部分研究集中在特定类型的卷曲。一种使任意卷曲的文档变平的方法是将照片投影到近似原始文档表面的3D栅格中。(见2004年26(10)期IEEE Transactions on Pattern Analysis andMachine Intelligence上第1295-1306页由Michael S.Brown和W.Brent Seales所写的“Image restoration of arbitrarily warpeddocuments”。)该变平算法将栅格建模为由弹簧连接并受重力影响的质点的集合。通过让弹簧适于最小势能的状态,该算法试图使表面的拉伸最小。尽管这种方法已经证明是成功的,但它依赖于时间步长的物理建模。这种算法的实验运行时间是分钟级的,这太慢了。此外,该算法假定它具有表示文档的准确3D表面,这将必须从由2D图像提取出的信息来重构。
一种无需对文档表面的先前知识而展开图像的方法是基于从文档内的文本行收集到的信息在图像上建立栅格。(见2006年Proceedings of the 18th International Conference on PatternRecognition第1期上第971-974页由Shijian Lu和Chew Lim Tan所写的“Document flattening through grid modeling andregularization”。)这种方法假设在原始文档中文档行是直的而且均匀地隔开,而且每个栅格单元中的曲率是近似恒定的。每个栅格单元代表原始文档中相同大小的方形。在卷曲的图像中,栅格单元的顶侧和底侧应当平行于正切矢量,而栅格单元的左侧和右侧应当平行于法向矢量。每个四边形单元都利用线性变换映射到方形中,从而有效地展开文档。在有些情况下,这种方法缺乏确定垂直单元边界的对准与间隔所需的信息。有些人已经尝试利用“垂直笔划分析”来获得这种信息,该方法集中在将单个字符的直线片段作为文本垂直方向的标记。(见2005年Image and Vision Computing第24期上第541-553页由ShijianLu Chen、Ben M.Chen和C.C.Ko所写的“Perspective rectification ofdocument images using fuzzy set and morphological operations”。)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于计算机连接管理中心公司,未经计算机连接管理中心公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980125859.2/2.html,转载请声明来源钻瓜专利网。