[发明专利]一种字符识别方法及装置在审
申请号: | 201610425396.3 | 申请日: | 2016-06-15 |
公开(公告)号: | CN107516096A | 公开(公告)日: | 2017-12-26 |
发明(设计)人: | 周文猛;施兴;褚崴;程孟力;毛旭东 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 陈莎莎,王宝筠 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字符 识别 方法 装置 | ||
技术领域
本申请涉及图像处理领域,尤其是涉及一种字符识别方法及装置。
背景技术
随着图像处理技术的不断发展,如何从图像中识别出字符越来越受到了广泛的关注,尤其是当图像中具有多个字符时。例如对于图1所示的图像,需要识别出其中的英文单词“glass”。
目前在识别图像中的多个字符时,首先需要对图像进行单个字符的分割处理,得到多个子图像,之后分别对每个子图像进行单个字符的识别,将分别识别出的单个字符进行合并以及语义处理,得到最终的识别结果。
然而在上述识别过程中,需要对图像进行单个字符的分割处理,如果分割处理过程出现问题,将会造成后续无法识别字符,从而导致多字符识别的准确率较低。
发明内容
本申请解决的技术问题在于提供一种字符识别方法及装置,以实现对图像中的多字符进行识别时不需要对图像进行分割处理,从而提高了多字符识别的准确率。
为此,本申请解决技术问题的技术方案是:
本申请实施例提供了一种字符识别方法,所述方法包括:
获取待识别图像,所述待识别图像中包括多个字符;
将所述待识别图像输入到训练好的卷积神经网络模型中,利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符;
其中,所述卷积神经网络模型的训练数据为多个训练样本图像,各个训练样本图像分别包括多个字符,所述训练数据对应的标记数据为所述多个训练样本图像对应包括的多个字符。
可选的,所述卷积神经网络模型包括至少四个卷积层、至少四个池化层和至少一个全连接层;
利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符,包括:
利用所述卷积层和所述池化层提取所述待识别图像的特征信息;
利用所述全连接层对所述特征信息进行区域筛选,获得筛选后的多个区域分别对应的字符;其中,每个区域对应至少一个字符;
根据所述多个区域分别对应的字符,识别出所述待识别图像中包括的多个字符。
可选的,所述卷积神经网络模型还包括至少五个分类器;所述方法还包括:
利用所述全连接层对所述特征信息进行区域筛选时,获得每个字符对应的可能性值;
根据所述多个区域分别对应的字符,识别出所述待识别图像中包括的多个字符,包括:
所述分类器和所述区域一一对应,每个分类器输出该分类器对应的区域中可能性值最大的字符,作为识别出的所述待识别图像中包括的多个字符。
可选的,所述卷积神经网络模型依次包括:第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第五卷积层、第四池化层、第一全连接层和第二全连接层。
可选的,所述方法还包括:
获取初始卷积神经网络模型;
将所述训练数据输入到所述初始卷积神经网络模型,获取所述初始卷积神经网络模型的输出结果;
根据所述输出结果和所述标记数据的比对结果,对所述初始卷积神经网络模型进行训练,获得所述训练好的卷积神经网络模型。
可选的,所述方法还包括:
对一个或多个训练样本图像进行仿真处理;
其中,所述仿真处理包括以下图像处理中的一项或多项:形状变换、图像叠加、以及加入图像噪声。
可选的,所述方法还包括:
将所述待识别图像输入所述卷积神经网络模型之前,对所述待识别图像进行归一化处理。
可选的,所述待识别图像中包括至少一个单词,各个训练样本图像分别包括至少一个单词;
利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符包括:
利用所述卷积神经网络模型识别出所述待识别图像中包括的至少一个单词。
本申请实施例提供了一种字符识别装置,所述装置包括:
获取单元,用于获取待识别图像,所述待识别图像中包括多个字符;
识别单元,用于将所述待识别图像输入到训练好的卷积神经网络模型中,利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符;
其中,所述卷积神经网络模型的训练数据为多个训练样本图像,各个训练样本图像分别包括多个字符,所述训练数据对应的标记数据为所述多个训练样本图像对应包括的多个字符。
可选的,所述卷积神经网络模型包括至少四个卷积层、至少四个池化层和至少一个全连接层;所述识别单元包括:
提取子单元,用于利用所述卷积层和所述池化层提取所述待识别图像的特征信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610425396.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像识别方法及装置
- 下一篇:一种边界数据划分方法与设备