[发明专利]一种手写文档文本的检测识别方法在审
申请号: | 202010896671.6 | 申请日: | 2020-08-31 |
公开(公告)号: | CN112036405A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 崔炜炜;魏金雷;尹洪义 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06N3/04 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 郗艳荣 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 手写 文档 文本 检测 识别 方法 | ||
本发明特别涉及一种手写文档文本的检测识别方法。该手写文档文本的检测识别方法,包括文本行定位和文本行检测两部分;文本行定位网络使用变形的VGG‑11,对一张图片经过网络训练,从而在图片上找到文本行可能的开始位置;文本行检测网络增量地沿着文本行前向传播,得到的文本行开始位置和旋转角度,重新采样获得一个查看窗口,输入到CNN网络回归得到下一个位置的旋转角度,直到达到图片边缘,最终产生归一化的文本行图片,输入到文本行识别网络识别文本行图片并输出识别结果。该手写文档文本的检测识别方法,不仅能够克服自然场景下的干扰因素,准确的检测识别文本,还能够正确地沿着文本行的延展方向递归前进,最终检测出弯曲文本行。
技术领域
本发明涉及深度学习技术领域,特别涉及一种手写文档文本的检测识别方法。
背景技术
二十世纪末,首次提出了自然场景中复杂彩色图像中文本块位置检测的问题。由于解决该问题具有很大的经济和文化效益,因此该问题很快成为计算机视觉和文档分析领域的热点。在上述问题提出后的几十年间,各种不同的文本检测识别方法被提出。
对于文本检测而言,目前主要有如下几种方法:
1、基于能力最小化方法,其大部分方法都是基于条件随机场和马尔可夫随机场的,把文本行的检测问题看作是能量最小化问题,以解决文本行之间的干扰;
2、基于连通域的方法,其核心思想是找出小的部分组成大的部分,然后通过分类器去掉非文字部分,最终从图像中抽取文字并结合成文字区域,基于连通域的方法最具有代表性的是最大稳定极值区域(MSER)和笔划宽度转换(SWT);
3、基于深度学习的方法,利用卷积神经网络从图像中提取高维特征,实现文本检测识别。
对于文本识别,目前主要有如下几种方法:
1、基于字符的方法,该方法执行字符级的文本识别,成功识别字符可以使得自底向上的文本识别更容易实现;
2、基于词组的方法,将文本识别视作单词识别;
3、基于序列的方法,将文本识别问题转化成序列识别问题,文本通过字符序列表示,利用卷积循环神经网络处理任意长度序列。
自然场景下手写文档中的文本检测识别与传统OCR识别不同。与OCR相比,自然场景下手写文档中的文本检测识别存在着非常多的挑战:
其一是场景复杂性,噪音、变形、不统一照明、局部遮挡、文字和背景的混淆等都会影响检测识别效果;
其二是文字多样性,颜色、大小、方向、字体、语言、文字部分残缺等也会影响检测识别效果。
该问题的解决有着巨大的文化经济效益,比如可以帮助视觉障碍人群阅读文档、实现实时拍照翻译等。但是由于自然场景下拍摄的手写文档图片中具有很多的干扰因素,传统的文本检测识别方法并不能很好的应用到自然场景。基于此,本发明提出了一种手写文档文本的检测识别方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的手写文档文本的检测识别方法。
本发明是通过如下技术方案实现的:
一种手写文档文本的检测识别方法,其特征在于:包括文本行定位和文本行检测两部分;
文本行定位网络使用变形的VGG-11,对一张图片经过网络训练,回归得到(x0,y0)坐标、尺度s0、旋转度θ0以及文本行出现的可能性p0,从而在图片上找到文本行可能的开始位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010896671.6/2.html,转载请声明来源钻瓜专利网。