[发明专利]一种基于神经网络的中文字符串图片OCR识别方法有效

申请号：	201910576921.5	申请日：	2019-06-28
公开（公告）号：	CN110321830B	公开（公告）日：	2020-11-13
发明（设计）人：	胡铮;张春红;唐晓晟;李杭	申请（专利权）人：	北京邮电大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34;G06K9/62;G06N3/04
代理公司：	北京永创新实专利事务所 11121	代理人：	冀学军
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于神经网络的中文字符串图片OCR识别方法，属于光学字符识别领域。首先采集若干张待识别图片，将每个图片中的每个像素值分别进行归一化；同时初始化神经网络模型的各类别，初始化每个类别的中心特征向量。然后将每张待识别图片中的归一化像素分别输入到神经网络模型中进行特征提取，得到各图片的深度特征矩阵，通过RoI Pooling进行池化操作后伸展特征，得到长度为L的特征向量。最后将特征向量划分为训练样本和测试样本，训练样本训练神经网络模型；每个测试样本的特征向量分别连接到训练好的神经网络模型的全连接层，输出各测试样本的类别，完成对各图片字符串的整体识别。本发明能够对整张字符串图片进行分类识别，识别精确度更高。
搜索关键词：	一种基于神经网络中文字符串图片 ocr 识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于神经网络的中文字符串图片OCR识别方法，其特征在于，具体步骤如下：步骤一、采集若干张待识别图片，将每个图片中的每个像素值分别进行归一化；步骤二、初始化神经网络模型的各类别，分别为每个类别初始化各自对应的类别中心特征向量；类别中心特征向量集合为{C₁,C₂,....,C_i,...,C_n}；C_i为第i个类别的中心特征向量；n为类别的中心特征向量的总数；步骤三、将每张待识别图片中的所有归一化像素，分别输入到神经网络模型中，通过卷积层+池化层进行特征提取，得到各图片的深度特征矩阵；针对采集的N张待识别图片，对应N个深度特征矩阵；步骤四、针对每张待识别图片，将各图片的深度特征矩阵通过RoI Pooling进行池化操作后伸展特征，得到长度为L的特征向量；步骤五、将N个特征向量划分为训练样本和测试样本，每个训练样本分别标注所属的类别，训练神经网络模型；具体训练过程如下：步骤501、针对某个训练样本，将该样本的特征向量和标注的类别中心向量，计算平方差损失值；针对第m个训练样本的特征向量为L_m，标注的类别中心特征向量为C_m，平方差损失计算公式如下：步骤502、将每个训练样本的平方差损失值记录，作为Weighted‑Center‑Loss损失函数值，对神经网络模型进行优化；其中，softmax函数通过对w作用，得到每个深度特征每个维度的权重，M为训练样本的数量；M＜N；步骤503、将每个训练样本的特征向量分别连接到神经网络模型的全连接层，得到各训练样本的预测输出向量；步骤504、将每个训练样本标注的所属类别经过one‑hot编码转化为K维向量；步骤505、将每个训练样本的预测输出向量结合各训练样本的K维向量，共同输入到softmax‑Loss损失函数中，输出结果为softmax‑Loss损失函数值；步骤506、将Weighted‑Center‑Loss损失函数值与softmax‑Loss损失函数值加权和，作为最终Loss损失值对神经网络模型进行优化；最终Loss损失值计算公式如下：Loss＝softmax‑Loss+λ*Weighted‑Center‑Lossλ是加权系数；步骤六、将每个测试样本的特征向量分别连接到训练好的神经网络模型的全连接层，输出各测试样本的类别，进而完成了对各图片字符串的整体识别；将测试样本的长度为L的各特征向量分别输入到训练好的神经网络模型的全连接层中，在全连接层的节点上每个输出经过一个softmax函数进行分类，该全连接层神经元的个数与实际分类的类别数目一致。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学，未经北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910576921.5/，转载请声明来源钻瓜专利网。

上一篇：一种人脸识别方法及装置、电子设备和存储介质
下一篇：指纹模组及移动终端

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于神经网络的中文字符串图片OCR识别方法有效

专利文献下载