[发明专利]基于端到端的图片文字序列连续识别方法在审
申请号: | 201511018552.6 | 申请日: | 2015-12-30 |
公开(公告)号: | CN105654127A | 公开(公告)日: | 2016-06-08 |
发明(设计)人: | 刘世林;何宏靖;陈炳章;吴雨浓;姚佳 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 端到端 图片 文字 序列 连续 识别 方法 | ||
技术领域
本发明涉及图像文字识别领域,特别涉及基于端到端的图片文字序列连续识别方法。
背景技术
随着社会的发展,产生了大量对古籍、文档、票据、名片等纸质媒体数字化的需求,这里的数字化不仅仅限于使用扫描仪或者相机进行“照片化”,更重要的是将这些纸质文件转化成以可读、可编辑的文档来进行存储,实现这一过程需要对扫描出的图片进行图像文字识别,而传统的图像文字识别为光学文字识别(OCR),光学文字识别在将待识别纸质文件扫描成电子图像的基础上进行识别。但是考虑到扫描效果的好坏、纸质文件本身的品质(别如印刷质量、字体清晰度,字体规范度等)、内容布局(文字的排列情况,比普通文本与表格文本和票据)的差异,OCR的实际效果不总是让人满意。而针对不同的纸质文档的识别准确率的要求有差异,比如票据的识别,对准确率的要求是非常高的,因为如果一个数字识别错误就可能导致致命的后果,传统的OCR识别不能满足这样高精度的识别要求。
常规的OCR方法包括了图片的切分,特征提取,单字符识别等处理过程,其中图片的切分包含了大量的图像预处理过程,比如倾斜矫正,背景去噪,单字符的提取;这些处理过程不仅繁琐耗时,而且可能使得图片损失很多可用信息;而且当待识别图片中包含多个文字的字符串时,传统的OCR方法需要将原字符串切分成若干包含单个文字的小图片进行分别识别,该方法主要问题在于:一单字符图片的切分困难,特别是混合了左右偏旁的汉子、字母、数字、符号,或者背景噪音、字符扭曲、粘合等情况下,切分更加困难。而一旦切分出现了问题,就很难得到准确的识别结果。面对巨大的识别需要急需能够快速高效的图像文字识别方法。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供基于端到端的图片文字序列连续识别方法。本发明应用了卷积神经网络(CNN)和递归神经网络(RNN)的技术,通过CNN对包含多个字符的整个图片进行特征提取,然后将同样的特征送入RNN进行递归重复使用,以实现连续预测多个字符的目的。本发明方法实现的光学文字序列识别,系统的克服了OCR识别前先要进行图片切分的弊端,极大的提高了图像文字的识别效率。
为了实现上述发明目的,本发明提供了以下技术方案:
基于端到端的图片文字序列连续识别方法,包含以下实现步骤:
(1)构建卷积神经网络和递归神经网络模型,其中所述递归神经网络各个时刻输入信号包括:所述卷积神经网络提取的样本特征数据,上一时刻递归神经网络的输出数据以及上一时刻递归神经网络识别出的字词转化成的向量数据;
(2)使用训练样本集来训练所述卷积神经网络和递归神经网络模型;
(3)将待识别图像文字序列输入训练好的所述卷积神经网络及递归神经网络中,由所述卷积神经网络提取待识别图片的特征数据,输入到所述递归神经网络中,经过所述递归神经网络的依次迭代,输出待识别图像文字序列的完整识别结果。
具体的,本发明方法中所使用的递归神经网络向前算法的计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511018552.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工件定位方法及定位系统
- 下一篇:一种文献查新的方法及装置