[发明专利]基于LeNet-5网络模型的手写体中文字符识别方法有效
申请号: | 201911172871.0 | 申请日: | 2019-11-26 |
公开(公告)号: | CN110929652B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 何凯;黄婉蓉;刘坤;高圣楠 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V40/30 | 分类号: | G06V40/30;G06N3/0464 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lenet 网络 模型 手写体 中文 字符 识别 方法 | ||
1.一种基于LeNet-5网络模型的手写体中文字符识别方法,其特征是,由基于数据流编程的符号数学系统TensorFlow框架构造一个LeNet-II网络模型,所述LeNet-II网络模型是由分支branch1、分支branch2和输出三个组成部分的卷积神经网络,branch1包括卷积层、池化层和一个改进的Inception模块;branch2由空洞卷积层和最大池化层组成;输出部分包括卷积层、池化层、全连接层、输出层;利用训练集对所述网络模型进行训练;最终利用训练完毕的LeNet-II网络模型进行识别;
branch1包括:3个卷积层、3个池化层和一个改进的Inception模块,3个池化层均采用最大池化计算;
由4层空洞卷积层和3层最大池化层组成branch2部分;
改进的Inception模块具体指,重新分配Inception模块的4个通道数,增加3×3卷积核的通道数,减少1×1卷积核的通道数,3×3卷积通道、5×5卷积通道、1×1卷积通道以及池化通道4个通道数的比例为5:1:1:1;同时,在3×3卷积层后添加一层卷积层,此外,还将5×5的二维卷积核分解为1×5和5×1两个一维卷积。
2.如权利要求1所述的基于LeNet-5网络模型的手写体中文字符识别方法,其特征是,待识别数据输入所述网络模型前需进行如下处理:
对文本图片进行灰度化、二值化处理;
对中文字符图片进行扫描处理,对中文字符进行正射纠正,并使其位于图片中间位置,上下左右各留出10个空白像素。
3.如权利要求2所述的基于LeNet-5网络模型的手写体中文字符识别方法,其特征是,所述由4层空洞卷积层和3层最大池化层组成的branch2部分具体结构为:
Layer层1为空洞卷积层,卷积核大小为3×3,卷积核个数为64,空洞卷积的间隔数量为2,输入图像大小为64×64,输出图像大小为64×64;
Layer2为池化层,池化过滤器大小为2×2,过滤器个数为64,步长为2,输入图像大小为64×64,输出图像大小为32×32;
Layer3为空洞卷积层,卷积核大小为3×3,卷积核个数为128,空洞卷积的间隔数量为2,输入图像大小为32×32,输出图像大小为32×32;
Layer4为池化层,池化过滤器大小为2×2,过滤器个数为128,步长为2,输入图像大小为32×32,输出图像大小为16×16;
Layer 5为空洞卷积层,卷积核大小为3×3,卷积核个数为256,空洞卷积的间隔数量为2,输入图像大小为16×16,输出图像大小为16×16;
Layer 6为空洞卷积层,卷积核大小为3×3,卷积核个数为512,空洞卷积的间隔数量为2,输入图像大小为16×16,输出图像大小为16×16;
Layer 7为池化层,池化过滤器大小为2×2,过滤器个数为512,步长为2,输入图像大小为16×16,输出图像大小为8×8。
4.如权利要求3所述的基于LeNet-5网络模型的手写体中文字符识别方法,其特征是,利用空洞卷积来进行branch2卷积层的计算,计算公式如下:
ksize=(n-1)×(k-1)+k (1)
r=(m-1)×stride+ksize (2)
其中,n表示卷积核的间隔数量,k表示卷积核大小,ksize表示膨胀卷积核大小,r表示本层感受野,m表示上层感受野,stride表示步长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911172871.0/1.html,转载请声明来源钻瓜专利网。