[发明专利]一种图像文本识别的方法和装置有效
申请号: | 201611036897.9 | 申请日: | 2016-11-23 |
公开(公告)号: | CN108090400B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 程耀;宋刘一汉;杜安安;许宝亮 | 申请(专利权)人: | 中移(杭州)信息技术有限公司;中国移动通信集团公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/08 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 贾伟;张颖玲 |
地址: | 310012 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 文本 识别 方法 装置 | ||
本发明实施例公开了一种图像文本识别的方法,所述方法包括:构建单行文本图像训练集;利用所述单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型;利用所述单行文本识别模型识别随机场景的单行文本图像,得到识别后的文本信息。如此,实现了对自然场景单行文本信息的有效识别,降低了人工分割的成本。本发明实施例还公开了一种图像文本识别的装置。
技术领域
本发明涉及图像识别领域,尤其涉及一种图像文本识别的方法和装置。
背景技术
随着科技的发展和社会的进步,越来越多的科技成果正在应用于人们的日常生活中,并且改变着人们的生活其中,图像文本识别技术的应用更是越来越广泛。但随着信息井喷式增长,以及人们对图像中文本识别精度的要求不断提升,传统的图像文本识别技术已经无法满足时代的需求,对于传统的图像文本识别技术主要存在以下的问题。
第一,对于传统的光字符识别技术(Optical Character Recognition,OCR)在图像文本识别中主要面向高质量的文档图像。此类技术假设输入图像背景干净、字体简单且文字排布整齐,在符合要求的情况下能够达到很高的识别水平。与文档图像文字识别不同,自然随机的场景中的文字识别则面临着图像背景复杂、分辨率低、字体多样、分布随意等挑战,传统OCR在此类情况下几乎无法被应用。
第二,应用神经网络算法进行图像文本识别,此方法需要输入大量的单个字符图像作为神经网络的训练集,这种训练集需要人工从大量图片中进行分割得到,分割时必然会引入误差信息,导致识别准确度下降;分割过程耗时耗力人工成本大,且得到的训练集有限无法满足大数据时代人们对于海量信息的需求。
发明内容
为解决上述技术问题,本发明实施例期望提供一种图像文本识别的方法和装置,实现了对自然场景单行文本信息的有效识别,既解决了对海量图像进行人工分割标注时耗时耗力的问题,又大幅提高了识别单行文本图像的准确率,避免了由于对图像中文本分割造成的误差。
本发明的技术方案是这样实现的:
本发明实施例提供了一种图像文本识别的方法,包括:
构建单行文本图像训练集;
利用所述单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型;
利用所述单行文本识别模型识别随机场景的单行文本图像,得到识别后的文本信息。
上述方案中,所述构建单行文本图像训练集包括:获取至少一种字符组合,利用获取的至少一种字符组合建立字符集,将所述字符集中每一种字符组合依据预设的构建方式生成对应的单行文本图像,利用所述生成的单行文本图像构建单行文本图像训练集。
上述方案中,所述预设的构建方式包括:随机改变字符的形状,或随机的改变字符组合的背景或前景。
上述方案中,在生成对应的单行文本图像之后,所述方法还包括:对所述单行文本图像进行缩放处理,使得缩放处理后的单行文本图像的宽度为预设的固定的像素。
上述方案中,利用所述单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型,包括:利用卷积神经网络提取所述单行文本图像训练集中每一个单行文本图像对应的文本序列特征,利用所述文本序列特征训练递归神经网络(Long Short-TermMemory,LSTM)识别模型,得到单行文本识别模型。
本发明实施例还提供了一种图像文本识别的装置,其特征在于,所述装置包括:构建模块、训练模块和识别模块;其中,
构建模块,用于构建单行文本图像训练集;
处理模块,用于利用所述单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型;
识别模块,用于利用所述单行文本识别模型识别随机场景的单行文本图像,得到识别后的文本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(杭州)信息技术有限公司;中国移动通信集团公司,未经中移(杭州)信息技术有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611036897.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动化光学图像识别方法及其装置
- 下一篇:线检测方法和线检测设备
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序