[发明专利]一种文本图像几何畸变的矫正方法有效
申请号: | 201110140399.X | 申请日: | 2011-05-27 |
公开(公告)号: | CN102208025A | 公开(公告)日: | 2011-10-05 |
发明(设计)人: | 孟高峰;潘春洪;向世明;段江永 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/32 | 分类号: | G06K9/32 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 梁爱荣 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 图像 几何 畸变 矫正 方法 | ||
技术领域
本发明属于数字图像处理和计算机视觉等技术领域,特别涉及一种相机拍摄的文本图像的透视失真和几何畸变的完全矫正技术。
背景技术
与平板式扫描仪相比,数码相机在文本图像获取上具有许多独特的优点,如携带方便、反应速度快、可从任意角度拍摄文档等。由于这些特点,数码相机在数字图书馆的构建、文献典籍的数字化以及文本识别等领域中获得了广泛应用。然而,由于相机的透视成像原理,拍摄的文本图像中常常存在透视失真等几何形变。此外,在用相机拍摄书籍页面时,由于页面变形,图像也会产生几何失真。这两种失真常常复合在一起,为后续的文本图像处理,如版面分割、字符识别等带来了诸多困难。
为矫正相机拍摄文本图像中的几何失真,人们提出了多种解决方法。这些方法可分为基于局部或全局的图像几何变形技术、基于图像3D深度数据的技术、基于Shape-from-X的技术以及页面曲面模型化技术等。此外,还有利用从多个视点拍摄的多幅图像来矫正图像的几何失真的技术。下面,我们对这些技术进行一个简单的介绍。
图像几何变形技术可分为基于局部的和基于全局的图像几何变形技术。前者首先对文本图像中的单词进行分割,然后将同一文本行上倾斜的单词逐个旋转至一条直线上,来矫正整条文本行的扭曲变形。后者则试图构建一个全局的图像几何变形函数,利用该函数对图像进行全局变换来矫正图像中的几何畸变。基于局部变换的方法由于变换的局部性,仅能对文本区域的形变进行矫正,而无法矫正非文本区域,如插图、表格等的变形。基于全局变换的方法则能矫正这些非文本区域的变形。该类方法的关键在于如何构造合适的全局形变函数。然而,由于页面曲面3D信息的缺失,基于全局变换的矫正技术无法完全矫正图像中存在的几何畸变失真。这类方法广泛存在限制条件苛刻、矫正残留误差大、仅能适用于特定情形的几何失真等缺点。
基于图像3D深度数据的矫正技术首先利用3D扫描仪获取文档页面曲面的3D深度信息,基于这些信息重构页面曲面的3D形状,最后通过一个保角映射和纹理映射将扭曲的图像映射至平面上,来矫正图像的几何扭曲。这类方法通常对图像的几何形变类型不加限制,能够适用于图像中多种类型的几何畸变的矫正。然而,由于额外需要价格昂贵的3D扫描仪辅助图像矫正,这类方法在实际中并不常用。并且,由于深度数据中几何拓扑关系的缺失,3D页面形状的重构还存在计算量大、数值不稳定等缺点,这些进一步限制的这类方法在实际中的应用。
另一种获取页面3D形状信息的方法是借助Shape-from-X技术,其中X代表图像的某种视觉线索,如目标的阴影、轮廓、纹理等。在现有技术中,页面的阴影曲面常用于估计页面的3D形状。这类方法通过分析页面阴影与页面形状之间的约束关系,得到二者所满足的约束方程,求解该方程得到页面的3D曲面。最后利用该曲面完成图像几何畸变的矫正。该技术对页面阴影要求较高,通常需要特定方向、结构的光照。然而,在实际环境下,由于环境光等其他光源的存在,这一要求难于满足。
其他图像视觉线索也常用于文档页面曲面的估计,如文本行,文本矩形块等。使用这些线索估计页面曲面时,往往还需额外添加某种约束,如要求预先知道矫正前后文本行之间的对应关系等。这些条件在实际应用中常常难于满足。
页面曲面模型化技术首先假设页面畸变为某特定类型的曲面,如柱面或可展曲面等,利用该假设来约束页面曲面的估计。柱面假设是一种最常用的页面形状假设。为估计柱面模型的参数,该类技术还进一步限定相机拍摄的视角、距离、姿态等,且还需预先知道文档页面的尺寸等额外物理信息。这些苛刻条件为实际应用造成了很多不便。
可展曲面假设是另一种常用的页面形状假设。由于文档页面总可以展开至平面上,因此,与柱面假设相比,该假设更具一般性。注意到可展曲面可由逐条平面片很好逼近,有研究者最新提出采用分片薄板样条曲面来近似可展曲面,用于图像几何畸变的矫正。该技术利用目前成熟的平面透视失真矫正技术,对薄板样条曲面逐片矫正,最后对这些矫正后的结果拼接完成图像的矫正。然而,由于无可避免的估计误差,拼接后的图像中常存在裂缝、重叠等缺陷。这些缺陷大大影响了图像矫正后的视觉效果。此外,由于透视失真与非线性几何形变失真的复合,该技术无法彻底矫正图像中存在的几何畸变,存在矫正残留误差大、算法复杂等缺点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110140399.X/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序