[发明专利]一种基于级联神经网络的文字检测方法、装置及存储介质有效
申请号: | 202011238231.8 | 申请日: | 2020-11-09 |
公开(公告)号: | CN112348015B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 吴婷婷;汪泰伸;陈德意;吴志鹏;刘彩玲;高志鹏;赵建强 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/22;G06V10/774;G06V10/764;G06V10/82;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
地址: | 361000 福建省厦门市思明*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 级联 神经网络 文字 检测 方法 装置 存储 介质 | ||
本发明公开了一种基于级联神经网络的文字检测方法、装置及存储介质,该方法通过收集样本,并对样本进行处理生成数据集;搭建第一全卷积网络,通过数据集对第一全卷积网络进行训练至网络收敛,并通过训练后的第一全卷积网络对数据集进行推理,获得回归结果;搭建第二全卷积网络,通过回归结果对第二全卷积网络进行训练至网络收敛;将待验证图片输入第一全卷积网络,若第一全卷积网络判断在滑窗范围内存在文字,则裁剪下滑窗范围内的区域做双线性插值尺度变换并输入第二全卷积网络,通过第二全卷积网络判断区域是否为文字区域。该方法具有更好的泛化性能,并能够在保证检测准确率与召回率的同时,降低模型大小,从而提升文字检测算法性能。
技术领域
本发明涉及文字检测领域,具体涉及一种基于级联神经网络的文字检测方法、装置及存储介质。
背景技术
文字作为一种可视化的信息载体广泛的存在于生活当中,随着电子设备的普及,越来越多的文字信息开始以图片的方式进行储存。对于计算机而言,若只是将该图像以图像信息形式进行处理,会丢失掉大量的关键信息,因此如何快速捕获数以亿兆的图片中的文字信息不论在商业领域还是在学术界中都有重要的研究价值。
文字检测是复杂场景下光学字符识别(OCR,Optical Character Recognition)中重要的一环,通过文字检测技术可以从图像中提取出文字像素以及文字的位置信息从而定位到需要进行文字识别的具体区域。准确的文字定位不仅帮助文字识别模型提升识别精度,同时也能帮助文字识别模型排除掉图像中冗余的非文字信息从而提升识别性能。
在复杂场景下由于受到光照,文字角度、多语言等多种因素的影响,想要准确的定位到每一个文字存在一定难度,因此这也成为了学术界研究的热点之一。目前现有的文字检测技术基本上可以分为基于传统图像处理的算法和基于深度学习的算法两类。
基于传统的图像处理算法中以SWT(Stroke Width Transform)和MSER(Robustwide-baseline stereo from maximally stable extremal regions)算法为主流。SWT通过应用笔画宽度变换来进行文本检测,MSER基于改进的分水岭算法对图像进行二值化处理从而进行文本检测。
基于深度学习的神经网络算法大致可分为两类:一是将文字识别看作普通的目标检测任务,使用如Faster-RCNN这类目标检测算法直接对文字进行检测。但与普通目标检测相比,文字检测具有检测目标占比小、检测目标常以序列化的形态即文本出现以及检测目标形态多变等特性,这些问题使得普通目标检测算法效果较差。为了解决这些问题,研究者提出了基于文本特性检测的思路。例如考虑到上下文连续字符的CTPN(Detecting Text inNatural Image with Connectionist Text Proposal Network)[5],以及考虑到弯曲字符和文字紧靠情况的PSEnet(Shape Robust Text Detection with Progressive ScaleExpansion Network)等。相比于使用普通的目标检测算法,这类算法在特定场景下一般具有更高的准确率。
基于传统图像处理的文本检测算法大多应用场景简单,例如背景单纯的扫描件、PDF图像等。在复杂场景下,受到各种噪声的干扰,泛化性能往往很差。在基于深度学习的神经网络算法中,加入了文字特性先验的算法,确实提升了文字检测的精度,但大部分现有算法都是针对英文数字特性进行设计,缺乏针对中文文字特性的考虑,对于中文而言,不论是字体比例、字符的复杂程度以及文本的组成形式都和英文有较大的出入,这也导致不少在英文数字检测中表现良好的算法,在中文检测的任务中效果却不如意。此外,为了满足复杂场景的识别任务,现有的文本检测算法大多使用规模较大的模型,但这样的模型在实际的工业应用中受到硬件设备、速度要求等限制往往难以落地于具体应用。
有鉴于此,建立一种基于级联神经网络的文字检测方法和装置是非常具有意义的。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011238231.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种平地龙舟道具
- 下一篇:一种海上架桥机及其施工方法