[发明专利]一种结合STN模块的文本检测深度学习方法及系统在审

专利信息
申请号: 201811528158.0 申请日: 2018-12-13
公开(公告)号: CN109635743A 公开(公告)日: 2019-04-16
发明(设计)人: 侯进;黄贤俊 申请(专利权)人: 深源恒际科技有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/32;G06K9/36
代理公司: 北京汇信合知识产权代理有限公司 11335 代理人: 孙民兴
地址: 100086 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本检测 文本条目 变换矩阵 网络模块 矫正 定位技术 定位检测 平面文档 区域检测 输入图片 图像变换 图像特征 网络框架 文档图像 算法 学习 图像 场景 统一
【说明书】:

发明公开了一种结合STN模块的文本检测深度学习方法及系统;其基于STN深度网络模块,对输入图片进行图像变换的相关变换矩阵参数进行学习与估计,利用相关变换矩阵参数对图像特征进行矫正变换;通过文本检测算法对矫正变换后的图像上的文本条目区域进行定位检测。利用STN深度网络模块将文档图像定位和文本条目区域检测两个阶段统一到一个网络框架下,进而发明了一种端到端的平面文档文本条目定位技术,本发明相比于现有技术,整体性能有较大提高,训练成本更低,且实用场景下性能更加稳定可靠。

技术领域

本发明涉及文本检测技术领域,尤其涉及一种结合STN模块的文本检测深度学习方法及系统。

背景技术

OCR(Optical Character Recognition,光学字符识别)的基本任务就是对图像文本上的文本内容进行提取,其一般分为两个过程:检测出文本区域,把文本块裁剪出来进入下一步对文本进行识别,为了达到正确识别的目的,往往需要第一步的文本区域检测做到定位出来,且文本区域中要尽量少的包含背景,这样才能有利于图像的识别。而对于证件、文档、票据等这类平面文档图像,目前比较稳定的主流文本检测技术有以下两种:

方案之一是分为两个阶段,第一阶段是进行文档定位,检出文档四边形的顶点,然后利用这四个顶点的坐标对图像进行透视变换,从而达到矫正整个图像的目的;第二阶段是在变换后的图像上,做文本条目区域进行水平外接矩形框定位检测;

该方案的第一阶段典型方法有如mask-rcnn,mtcnn等,其基本原理就是对整个文档进行4个顶点8个坐标值进行回归,得到4个顶点坐标后,利用四个顶点做图像变换处理;接着第二阶段利用,常用的目标检测方法faster-rcnn、yolo、ssd等高性能的目标检测方法,在矫正后的图像上,进行文本条目的最小外接水平矩形,简称bbox检测。

方案之二不需要做文档矫正,而是直接对文本条目区域进行四边形的四个顶点进行回归,也就是模型直接对文本条目区域的四个顶点进行回归学习,从而达到一步到位的检测定位目的,其主流方法有mask-rcnn,EAST等方法。

上述方案都有着各自的一些缺点,其中:

方案一由于分为两个独立的阶段,因而误差容易放大,而且整个文档图像的尺寸在整图中往往占比较大,整体文本的顶点定位误差稍微高点,都会导致图像矫正不够好,因而整体性能往往会受到较大影响。

方案二因为需要对每个条目的外接多边形的四个顶点进行标注,而不像方案一只需要标注整体文本的四个顶点,和文本条目的水平外接矩形标注,因而标注成本较大(注:实际样本数据标注过程中,水平外接矩形的标注成本大大低于最小外接四边形的成本),且对内容较多的,条目排列紧凑的文档,往往出现定位错乱的情况,因而其整体性能不够,在实际对精度要求较高的应用场景中,现阶段该方案成熟落地场景还较少。

发明内容

针对上述现有技术中存在的不足之处,本发明以背景技术中的方案一为基础,利用STN深度网络模块将方案一的两个阶段统一到一个网络框架下,进而发明了一种端到端的结合STN模块的文本检测深度学习方法及系统,相比于背景技术中的方案一,由于本发明的方案不存在两个过程,因此本发明方案的整体性能有较大提高,而相比于背景技术中的方案二,本发明训练成本降低了很多,且实用场景下性能更加稳定可靠。

具体地,该结合STN模块的文本检测深度学习方法,包括:

基于STN深度网络模块,对输入图片进行图像变换的相关变换矩阵参数进行学习与估计,利用相关变换矩阵参数对图像特征进行矫正变换;

通过文本检测算法对矫正变换后的图像上的文本条目区域进行定位检测。

可选地,上述方法中,所述空间变换网络的目标设计为旋转、防射、透视变换中的至少一种。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深源恒际科技有限公司,未经深源恒际科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811528158.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top