[发明专利]一种改进的平行四边形候选框的文本检测方法有效

专利信息
申请号: 201910857582.8 申请日: 2019-09-09
公开(公告)号: CN110674802B 公开(公告)日: 2022-10-14
发明(设计)人: 李宏亮;陶聚;王强;杨健榜;王晓鹏;罗鹏飞 申请(专利权)人: 电子科技大学
主分类号: G06V30/14 分类号: G06V30/14;G06V30/19;G06V10/82;G06N3/04;G06N3/08
代理公司: 电子科技大学专利中心 51203 代理人: 邹裕蓉
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 改进 平行四边形 候选 文本 检测 方法
【说明书】:

发明提出一种改进的平行四边形候选框的文本检测方法,在训练步骤以及检测步骤中,预测特征谱在进入PriorBox层之前先经过偏移学习模块,所述偏移学习模块用于输出预测特征谱以及候选框在Y轴方向的偏移量至PriorBox层;PriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框;使用平行四边形的候选框来贴近标签GroundTruth,以提升GroundTruth与预测框之间的IoU,从而降低网络回归的困难程度。本发明能准确定位倾斜的长文本,适用于书籍文字识别、然场景下多方向文字识别。

技术领域

本发明涉及文本检测技术,特别涉及文字检测中候选框生成的方法。

背景技术

OCR(Optical Character Recognition),现泛指图像文字识别,即从图像视频中自动识别文字内容,属于AI计算机视觉的一个重要分支。移动互联网的爆炸式增长以及深度学习技术的普及,分别从业务需求与技术支撑两方面,进一步推动OCR领域发展。OCR技术可深入服务于广告推荐系统的图像内容提取、广告素材审核、广告图像创意、用户理解等等,OCR亦可应用于UGC图片视频过滤、医学影像识别、证件识别、文档识别、街景路牌识别等等。当今主流的OCR技术主要分为两步:1、文本检测,指的是精确定位出图像中文本的位置;2、文本识别,指的是精确的识别出文本检测中定位出来的图像的文本内容。

传统的OCR技术主要是通过手工设计特征提取方法,再通过对连通域计算最小外接矩形实现对文本的定位。传统的OCR技术手工提取的特征较差,容易出现漏检、错检等问题。而随着信息技术的高速发展,图像数据的指数级增长,硬件条件的提升,基于深度学习的新兴文本检测方法如雨后春笋般快速发展起来。基于深度学习的文本检测方法拥有通过网络自动学习提取特征的优点,实现了检测性能上的质的提升。目前比较流行的文本检测技术有CTPN、TextBoxes_plusplus、TextMoutain等,它们都有各自的优缺点,比如CTPN方法拥有较快的速度,但却无法检测倾斜文本;TextBoxes_plusplus文本检测方法虽可以检测倾斜文本,但是其无法精确定位长文本以及倾斜文本。

TextBoxes_plusplus的网络结构如下:

TextBoxes_plusplus检测算法包括步骤:

1)训练步骤:

1-1)输入样本图像经过基于VGG16的主干网络得到的预测特征谱,预测特征谱分别来自于网络中6个卷积层或全连接层conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2;

样本图像的标签GroundTruth为其中q=1,2,3,4是GroundTruth的四个顶点,为GroundTruth的水平最小外接矩形的左上角以及右下角坐标。具体形式如图1。

1-2)将预测特征谱分别输入回归特征谱层、分类特征谱层、PriorBox层得到回归特征谱、分类特征谱以及矩形候选框坐标;回归特征谱(conv4_3_mbox_loc、fc7_mbox_loc、conv6_2_mbox_loc、conv7_2_mbox_loc、conv8_2_mbox_loc、conv9_2_mbox_loc)为图像特征谱、分类特征谱(conv4_3_mbox_conf、fc7_mbo_conf、conv6_2_mbox_conf、conv7_2_mbox_conf、conv8_2_mbox_conf、conv9_2_mbox_conf)为分类置信度;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910857582.8/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top