[发明专利]对文档图像进行透视校正的方法和设备有效
申请号: | 201510830447.6 | 申请日: | 2015-11-25 |
公开(公告)号: | CN106803269B | 公开(公告)日: | 2020-03-10 |
发明(设计)人: | 李鑫;刘伟;范伟;孙俊 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06T7/60 | 分类号: | G06T7/60 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;吴琼 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 图像 进行 透视 校正 方法 设备 | ||
1.一种对包含长阿拉伯数字串的文档图像进行透视校正的方法,包括:
确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容;
根据所述长阿拉伯数字串的内容,创建参考图像;
根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数;以及
根据所述校正函数,对所述文档图像进行透视校正,
其中,确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容包括:
对所述文档图像进行二值化处理,以得到二值化图像;
提取所述二值化图像中的所有连通域;
利用数字OCR引擎,对所提取的连通域进行OCR识别;
在OCR结果中,搜索置信度高、彼此接近、形成一个最长串的一组连通域;
将所述一组连通域的外接矩形所包围的区域,确定为所述文档图像中所述长阿拉伯数字串所在的部分。
2.如权利要求1所述的方法,其中,确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容还包括:
将所述OCR结果中与所述长阿拉伯数字串所在的部分对应的识别结果中置信度最高的一组识别结果,确定为所述长阿拉伯数字串的内容。
3.如权利要求1所述的方法,其中,对所述文档图像进行二值化处理,以得到二值化图像包括:
针对所述文档图像中的每个像素,将该像素的R、G、B中的最大值作为灰度图像中对应位置的像素值,以得到灰度图像;
利用二值化阈值,对所述灰度图像进行二值化,以得到二值化图像。
4.如权利要求1所述的方法,其中,对所述文档图像进行二值化处理,以得到二值化图像包括:
针对所述文档图像中的每个像素,取该像素的R、G、B中的最大值与大于1的预定常数之积、以及255中的较小者,作为灰度图像中对应位置的像素值,以得到灰度图像;
利用二值化阈值,对所述灰度图像进行二值化,以得到二值化图像。
5.如权利要求3或4所述的方法,其中,在进行二值化之前,还对灰度图像中的每个灰度值pi,进行如下公式所示的黑色像素增强处理:
其中,pi表示灰度值,α、β为预定正整数。
6.如权利要求1所述的方法,其中,根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数包括:
获取所述长阿拉伯数字串所在的部分的四个特征点;
获取所述参考图像的四个特征点;
根据所获取的八个特征点,计算校正函数。
7.如权利要求6所述的方法,其中,获取所述长阿拉伯数字串所在的部分的四个特征点包括:
提取所述长阿拉伯数字串所在的部分靠左侧的左连通域的外接矩形的上边的中心点作为第一点和下边的中心点作为第二点;
提取所述长阿拉伯数字串所在的部分靠右侧的右连通域的外接矩形的上边的中心点作为第三点和下边的中心点作为第四点;
将连接所述第一点和所述第三点的第一直线整体下移若干像素后与所述左连通域的交点的平均像素位置确定为第一特征点;
将连接所述第二点和所述第四点的第二直线整体上移若干像素后与所述左连通域的交点的平均像素位置确定为第二特征点;
将所述第一直线整体下移若干像素后与所述右连通域的交点的平均像素位置确定为第三特征点;
将所述第二直线整体上移若干像素后与所述右连通域的交点的平均像素位置确定为第四特征点。
8.如权利要求6所述的方法,其中,获取所述参考图像的四个特征点包括:
对所述参考图像进行二值化处理并提取连通域;
提取所述参考图像靠左侧的连通域的外接矩形的上边的中心点作为第五特征点和下边的中心点作为第六特征点;
提取所述参考图像靠右侧的连通域的外接矩形的上边的中心点作为第七特征点和下边的中心点作为第八特征点。
9.一种对包含长阿拉伯数字串的文档图像进行透视校正的设备,包括:
数字串确定装置,被配置为:确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容;
参考图像创建装置,被配置为:根据所述长阿拉伯数字串的内容,创建参考图像;
校正函数计算装置,被配置为:根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数;以及
透视校正装置,被配置为:根据所述校正函数,对所述文档图像进行透视校正,
其中,确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容包括:
对所述文档图像进行二值化处理,以得到二值化图像;
提取所述二值化图像中的所有连通域;
利用数字OCR引擎,对所提取的连通域进行OCR识别;
在OCR结果中,搜索置信度高、彼此接近、形成一个最长串的一组连通域;
将所述一组连通域的外接矩形所包围的区域,确定为所述文档图像中所述长阿拉伯数字串所在的部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510830447.6/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序