[发明专利]基于改进型EAST算法的文本检测方法有效
申请号: | 201910011376.5 | 申请日: | 2019-01-07 |
公开(公告)号: | CN109740542B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 史天永;翁增仁 | 申请(专利权)人: | 福建博思软件股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 张磊 |
地址: | 350108 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进型 east 算法 文本 检测 方法 | ||
本发明涉及一种基于改进型EAST算法的文本检测方法,它包括以下步骤:S1.采用多通道全卷积网络对输入图像进行处理;S2.对map0中的像素点进行阈值化选择;S3.计算出激活像素点所预测文本框的四个顶点坐标;S4.将各激活像素点预测的文本框根据重合程度进行合并得到多边形polygon;S5.从集合C中筛选出子集合C1以及子集合C2;S6.通过子集合C1内的激活像素点计算出文本框起始端的两顶点坐标,通过子集合C2内的激活像素点计算出文本框终止端的两顶点坐标;将子集合C1得到的两顶点坐标与子集合C2得到的两顶点坐标进行合并。本发明的优点在于:可提高EAST算法对长文本的预测的准确率。
技术领域
本发明涉及一种基于改进型EAST算法的文本检测方法,该方法适用于身份证文字识别、银行卡文字识别、电子票据文字识别、印刷体文档文字识别、自然场景文字识别等OCR文字识别领域。
背景技术
OCR(Optical Character Recognition)光学字符识别是AI领域的一项重要技术,主要内容是让计算机读取图像中的文字信息。当今主流的OCR技术主要分为两步:1、文本检测,指的是定位出文本在图像中的精确位置;2、文本识别,指的是根据文本检测提供的位置信息将文本裁剪出来并加以识别。
现有OCR领域,文本检测技术多如牛毛,性能良好的检测技术主要都是基于深度神经网络,它们的区别仅在于网络的结构和其他的细枝末节。目前比较流行的文本检测技术有CTPN、TextBoxes、EAST、PixelLink等,它们都有各自的优缺点,比如CTPN算法的优点是对水平文本的检测精度高,缺点是无法检测倾斜的文本;EAST文本检测算法虽然可以定位倾斜的文本,但是无法精确定位较长的文本。
发明内容
本发明的目的在于提供一种基于改进型EAST算法的文本检测方法,解决了原算法对长文本定位准确率低的问题。
本发明的目的通过如下技术方案实现:一种基于改进型EAST算法的文本检测方法,它包括以下步骤:
S1.采用多通道全卷积网络对输入图像进行处理,输出一个9通道特征图,分别为map0,map1,map2,map3,map4,map5,map6,map7,map8;
S2.对map0中的像素点进行阈值化选择,将符合阈值范围的像素点选定作为激活像素点;
S3.在map1-map8上分别找到激活像素点对应的坐标,并计算出激活像素点所预测文本框的四个顶点坐标;
S4.将各激活像素点预测的文本框根据重合程度进行合并得到多边形polygon,多边形polygon对应的所有激活像素点组成一个集合C;
S5.从集合C中筛选出靠近对应的预测文本框起始端的激活像素点形成子集合C1以及靠近对应的预测文本框终止端的激活像素点形成子集合C2;
S6.通过子集合C1内的激活像素点计算出文本框起始端的两顶点坐标,通过子集合C2内的激活像素点计算出文本框终止端的两顶点坐标;
将子集合C1得到的两顶点坐标与子集合C2得到的两顶点坐标进行合并,形成最终文本框的四个顶点坐标。
较之现有技术而言,本发明的优点在于:本发明根据文本框中靠近起始端的像素点来预测文本框起始端的两个顶点坐标,根据文本框中靠近终止端的像素点来预测文本框终止端的两个顶点坐标,然后合并上述四个顶点坐标得到最终的预测文本框,从而提高EAST算法对长文本的预测的准确率。
附图说明
图1是一种基于改进型EAST算法的文本检测方法的流程图。
图2是IoU值计算公式的概念演示图。
图3是计算激活像素点到其预测文本框两个端部顶点的曼哈顿距离的示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建博思软件股份有限公司,未经福建博思软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910011376.5/2.html,转载请声明来源钻瓜专利网。