[发明专利]基于卷积注意力和标签采样的手写方程式图像识别方法有效
申请号: | 202111120578.7 | 申请日: | 2021-09-24 |
公开(公告)号: | CN113705730B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 季爽;顾志文;王慧萍;李剑;许磊磊 | 申请(专利权)人: | 江苏城乡建设职业学院 |
主分类号: | G06V30/32 | 分类号: | G06V30/32;G06V30/19;G06V10/82;G06N3/045;G06N3/0442;G06N3/0464;G06N3/048;G06N3/084;G06N3/0985 |
代理公司: | 苏州国诚专利代理有限公司 32293 | 代理人: | 王会 |
地址: | 213147 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 注意力 标签 采样 手写 方程式 图像 识别 方法 | ||
1.基于卷积注意力和标签采样的手写方程式图像识别方法,其特征在于,包括以下步骤:
S1:对输入图像进行预处理,确保图像大小及通道固定;
S2:使用图像特征提取模块对输入图像进行特征提取,输出对应的特征矩阵;
S3:使用注意力特征提取模块,以特征矩阵为输入,通过卷积和逆卷积操作,生成对应的注意力矩阵;
S4:使用文本特征解码模块,基于循环神经网络结合标签采样技术,以特征矩阵及注意力矩阵为输入,得到每个序列位字符输出,最后得到整个序列输出,得到最终数学方程式的识别结果;
步骤S4中,使用文本特征解码模块,基于循环神经网络结合标签采样技术,以特征矩阵及注意力矩阵为输入,得到每个序列位字符输出,最后得到整个序列输出,得到最终数学方程式的识别结果,具体包括以下步骤:
将步骤S2所得特征矩阵及步骤S3所得注意力矩阵相结合,得到不同注意力的图像特征,对应的函数表达为函数ct:
其中,t表示为识别文本中第t个字符的注意力权重,Fx,y表示步骤S2中的图像特征矩阵,At,x,y表示步骤S3中的注意力矩阵;
随后将不同注意力的图像特征信息输入循环神经网络,利用标签采样技术,在训练阶段,以一个不断衰减的概率值ε选取真实标签值,以1-ε概率值选取上一个时间步的输出或真实标签值中一个进行编码,并与特征矩阵和注意力矩阵进行内积求和得到的具有不同注意力的图像特征中间向量一起作为当前时间步的输入,更新循环神经网络中的隐藏态向量,再将隐藏态向量输入全连接神经网络,输出每个字符的概率值,选取概率最大的作为当前字符输出,将所有字符输出连接,作为最终数学方程式的识别结果。
2.根据权利要求1所述的基于卷积注意力和标签采样的手写方程式图像识别方法,其特征在于,步骤S1中,对输入图像进行预处理,确保图像大小及通道固定,具体包括以下步骤:
输入训练集中的数学方程式图像,将其转化为单通道,大小为(w,h,1);随后对输入图像进行等比例缩放,确保其长度小于2048,或者宽度小于192,再对缩放后的空白区域填充底色,确保所有图像的大小均为(192,2048,1);将图像随机拆分成训练样本和测试样本,两部分样本均标注对应标签值。
3.根据权利要求1所述的基于卷积注意力和标签采样的手写方程式图像识别方法,其特征在于,步骤S2中,所述图像特征提取模块包括CNN卷积模块和残差块模块;使用图像特征提取模块对输入图像进行特征提取,输出对应的特征矩阵,具体包括以下步骤:
先将步骤S1所得训练样本输入到CNN卷积模块进行编码,输入图像大小为(192,2048,1),通过残差块模块处理,最终输出的特征矩阵大小为(3,128,512),其中,(3,128)为特征矩阵大小,512为通道数,所述残差块模块包括48层残差块。
4.根据权利要求1所述的基于卷积注意力和标签采样的手写方程式图像识别方法,其特征在于,步骤S3中,所述注意力特征提取模块包括应用Sigmoid激活函数的上采用逆卷积层及对称网络结构,所述对称网络结构包括若干层采用ReLU激活函数的下采样卷积层和若干层采用ReLU激活函数的上采样逆卷积层,每层采用ReLU激活函数的下采样卷积层分别与一层采用ReLU激活函数的上采样逆卷积层对称设置,采用ReLU激活函数的下采样卷积层、采用ReLU激活函数的上采样逆卷积层和应用Sigmoid激活函数的上采用逆卷积层依次设置,应用Sigmoid激活函数的上采用逆卷积层位于注意力特征提取模块中的最后一层。
5.根据权利要求1所述的基于卷积注意力和标签采样的手写方程式图像识别方法,其特征在于,步骤S3中,使用注意力特征提取模块,以特征矩阵为输入,通过卷积和逆卷积操作,生成对应的注意力矩阵,具体包括以下步骤:
以特征矩阵为输入,通过采用ReLU激活函数的下采样卷积层对输入特征进行特征提取,将前一层输出及与其相同大小的输出结合作为采用ReLU激活函数的上采样逆卷积层的输入,进行逆卷积操作,最后通过应用Sigmoid激活函数的上采用逆卷积层得到注意力矩阵,大小为(3,128,maxT),其中,maxT指当前输入图像标签中文本的长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏城乡建设职业学院,未经江苏城乡建设职业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111120578.7/1.html,转载请声明来源钻瓜专利网。