[发明专利]一种基于神经网络的中文字符串图片OCR识别方法有效
申请号: | 201910576921.5 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110321830B | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 胡铮;张春红;唐晓晟;李杭 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 冀学军 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于神经网络的中文字符串图片OCR识别方法,属于光学字符识别领域。首先采集若干张待识别图片,将每个图片中的每个像素值分别进行归一化;同时初始化神经网络模型的各类别,初始化每个类别的中心特征向量。然后将每张待识别图片中的归一化像素分别输入到神经网络模型中进行特征提取,得到各图片的深度特征矩阵,通过RoI Pooling进行池化操作后伸展特征,得到长度为L的特征向量。最后将特征向量划分为训练样本和测试样本,训练样本训练神经网络模型;每个测试样本的特征向量分别连接到训练好的神经网络模型的全连接层,输出各测试样本的类别,完成对各图片字符串的整体识别。本发明能够对整张字符串图片进行分类识别,识别精确度更高。 | ||
搜索关键词: | 一种 基于 神经网络 中文 字符串 图片 ocr 识别 方法 | ||
【主权项】:
1.一种基于神经网络的中文字符串图片OCR识别方法,其特征在于,具体步骤如下:步骤一、采集若干张待识别图片,将每个图片中的每个像素值分别进行归一化;步骤二、初始化神经网络模型的各类别,分别为每个类别初始化各自对应的类别中心特征向量;类别中心特征向量集合为{C1,C2,....,Ci,...,Cn};Ci为第i个类别的中心特征向量;n为类别的中心特征向量的总数;步骤三、将每张待识别图片中的所有归一化像素,分别输入到神经网络模型中,通过卷积层+池化层进行特征提取,得到各图片的深度特征矩阵;针对采集的N张待识别图片,对应N个深度特征矩阵;步骤四、针对每张待识别图片,将各图片的深度特征矩阵通过RoI Pooling进行池化操作后伸展特征,得到长度为L的特征向量;步骤五、将N个特征向量划分为训练样本和测试样本,每个训练样本分别标注所属的类别,训练神经网络模型;具体训练过程如下:步骤501、针对某个训练样本,将该样本的特征向量和标注的类别中心向量,计算平方差损失值;针对第m个训练样本的特征向量为Lm,标注的类别中心特征向量为Cm,平方差损失计算公式如下:步骤502、将每个训练样本的平方差损失值记录,作为Weighted‑Center‑Loss损失函数值,对神经网络模型进行优化;其中,softmax函数通过对w作用,得到每个深度特征每个维度的权重,M为训练样本的数量;M<N;步骤503、将每个训练样本的特征向量分别连接到神经网络模型的全连接层,得到各训练样本的预测输出向量;步骤504、将每个训练样本标注的所属类别经过one‑hot编码转化为K维向量;步骤505、将每个训练样本的预测输出向量结合各训练样本的K维向量,共同输入到softmax‑Loss损失函数中,输出结果为softmax‑Loss损失函数值;步骤506、将Weighted‑Center‑Loss损失函数值与softmax‑Loss损失函数值加权和,作为最终Loss损失值对神经网络模型进行优化;最终Loss损失值计算公式如下:Loss=softmax‑Loss+λ*Weighted‑Center‑Lossλ是加权系数;步骤六、将每个测试样本的特征向量分别连接到训练好的神经网络模型的全连接层,输出各测试样本的类别,进而完成了对各图片字符串的整体识别;将测试样本的长度为L的各特征向量分别输入到训练好的神经网络模型的全连接层中,在全连接层的节点上每个输出经过一个softmax函数进行分类,该全连接层神经元的个数与实际分类的类别数目一致。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910576921.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种人脸识别方法及装置、电子设备和存储介质
- 下一篇:指纹模组及移动终端