[发明专利]对文档图像进行透视校正的方法和设备有效

专利信息
申请号: 201510830447.6 申请日: 2015-11-25
公开(公告)号: CN106803269B 公开(公告)日: 2020-03-10
发明(设计)人: 李鑫;刘伟;范伟;孙俊 申请(专利权)人: 富士通株式会社
主分类号: G06T7/60 分类号: G06T7/60
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 康建峰;吴琼
地址: 日本神*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文档 图像 进行 透视 校正 方法 设备
【权利要求书】:

1.一种对包含长阿拉伯数字串的文档图像进行透视校正的方法,包括:

确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容;

根据所述长阿拉伯数字串的内容,创建参考图像;

根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数;以及

根据所述校正函数,对所述文档图像进行透视校正,

其中,确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容包括:

对所述文档图像进行二值化处理,以得到二值化图像;

提取所述二值化图像中的所有连通域;

利用数字OCR引擎,对所提取的连通域进行OCR识别;

在OCR结果中,搜索置信度高、彼此接近、形成一个最长串的一组连通域;

将所述一组连通域的外接矩形所包围的区域,确定为所述文档图像中所述长阿拉伯数字串所在的部分。

2.如权利要求1所述的方法,其中,确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容还包括:

将所述OCR结果中与所述长阿拉伯数字串所在的部分对应的识别结果中置信度最高的一组识别结果,确定为所述长阿拉伯数字串的内容。

3.如权利要求1所述的方法,其中,对所述文档图像进行二值化处理,以得到二值化图像包括:

针对所述文档图像中的每个像素,将该像素的R、G、B中的最大值作为灰度图像中对应位置的像素值,以得到灰度图像;

利用二值化阈值,对所述灰度图像进行二值化,以得到二值化图像。

4.如权利要求1所述的方法,其中,对所述文档图像进行二值化处理,以得到二值化图像包括:

针对所述文档图像中的每个像素,取该像素的R、G、B中的最大值与大于1的预定常数之积、以及255中的较小者,作为灰度图像中对应位置的像素值,以得到灰度图像;

利用二值化阈值,对所述灰度图像进行二值化,以得到二值化图像。

5.如权利要求3或4所述的方法,其中,在进行二值化之前,还对灰度图像中的每个灰度值pi,进行如下公式所示的黑色像素增强处理:

其中,pi表示灰度值,α、β为预定正整数。

6.如权利要求1所述的方法,其中,根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数包括:

获取所述长阿拉伯数字串所在的部分的四个特征点;

获取所述参考图像的四个特征点;

根据所获取的八个特征点,计算校正函数。

7.如权利要求6所述的方法,其中,获取所述长阿拉伯数字串所在的部分的四个特征点包括:

提取所述长阿拉伯数字串所在的部分靠左侧的左连通域的外接矩形的上边的中心点作为第一点和下边的中心点作为第二点;

提取所述长阿拉伯数字串所在的部分靠右侧的右连通域的外接矩形的上边的中心点作为第三点和下边的中心点作为第四点;

将连接所述第一点和所述第三点的第一直线整体下移若干像素后与所述左连通域的交点的平均像素位置确定为第一特征点;

将连接所述第二点和所述第四点的第二直线整体上移若干像素后与所述左连通域的交点的平均像素位置确定为第二特征点;

将所述第一直线整体下移若干像素后与所述右连通域的交点的平均像素位置确定为第三特征点;

将所述第二直线整体上移若干像素后与所述右连通域的交点的平均像素位置确定为第四特征点。

8.如权利要求6所述的方法,其中,获取所述参考图像的四个特征点包括:

对所述参考图像进行二值化处理并提取连通域;

提取所述参考图像靠左侧的连通域的外接矩形的上边的中心点作为第五特征点和下边的中心点作为第六特征点;

提取所述参考图像靠右侧的连通域的外接矩形的上边的中心点作为第七特征点和下边的中心点作为第八特征点。

9.一种对包含长阿拉伯数字串的文档图像进行透视校正的设备,包括:

数字串确定装置,被配置为:确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容;

参考图像创建装置,被配置为:根据所述长阿拉伯数字串的内容,创建参考图像;

校正函数计算装置,被配置为:根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数;以及

透视校正装置,被配置为:根据所述校正函数,对所述文档图像进行透视校正,

其中,确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容包括:

对所述文档图像进行二值化处理,以得到二值化图像;

提取所述二值化图像中的所有连通域;

利用数字OCR引擎,对所提取的连通域进行OCR识别;

在OCR结果中,搜索置信度高、彼此接近、形成一个最长串的一组连通域;

将所述一组连通域的外接矩形所包围的区域,确定为所述文档图像中所述长阿拉伯数字串所在的部分。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510830447.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top