[发明专利]一种基于深度学习的手写体数学表达式识别方法与装置在审
申请号: | 201910896808.5 | 申请日: | 2019-09-20 |
公开(公告)号: | CN110766012A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 单光存;王红宇;文博 | 申请(专利权)人: | 北京航空航天大学;博恒科技(杭州)有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 11021 中科专利商标代理有限责任公司 | 代理人: | 马莉 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 编码向量 数学表达式 编码器 手写体 二维 预处理 解码器 注意力机制 解码 二维结构 计算方式 图片特征 网络 解析 注意力 输出 引入 图片 学习 | ||
1.一种基于深度学习的手写体数学表达式识别方法,其特征在于,包括:
S1,对含有手写体数学表达式的图片进行预处理,并输入模型中;
S2,采用DenseNet网络作为编码器对输入模型的图片进行编码,并将所述DenseNet网络的输出作为编码向量;
S3,将所述编码向量作为输入,采用引入二维注意力机制的解码器对所述编码向量进行解码。
2.根据权利要求1所述的手写体数学表达式识别方法,其特征在于,所述步骤S3中,所述解码器为具有二维注意力机制的循环神经网络,其输入包括步骤S2输出的所述编码向量Xwh、解码器上一时刻输出的LaTex字符C以及解码器上一时刻的隐层H,其中,w为编码向量的宽度,h为编码向量的高度。
3.根据权利要求1所述的手写体数学表达式识别方法,其特征在于,所述步骤S3包括:
S301,引入二维注意力机制,产生带有注意力机制的编码向量,其中,所述二维注意力机制的计算如下:
ewh=vT{f1[Emb(hi-1,ci-1)]×f2[Xwh]} (1)
其中,ewh表示二维注意力机制在宽为w,高为h的特征平面上每一特征点的关注度;Emb为Embedding操作,所述Embedding操作为一种将单一字符映射为一个维度固定的向量的操作,用于表示序列中不同字符之间的区别与联系;hi-1为上一时刻的隐层H,ci-1为上一时刻输出的LaTex字符C;f1、f2与vT分别表示两个全连接层和一个随机初始化矩阵,用于将不同纬度的向量映射为一个固定维度的向量;Xwh即编码向量;αwh为归一化后的权重参数;
通过式(2)进行归一化操作,获得二维注意力机制的权重,则该时间步下,编码向量将变为:
Xwh′=αwh×Xwh (3)
其中,X’wh为带有注意力机制的编码向量;
S302,将该带有注意力机制的编码向量输入解码器,同时通过上一时刻的输出字符及隐层向量,得到解码输出;其中,所述解码器将对带有注意力机制的编码向量解码时,解码操作为:
outputi=soft max{D[f3(hi-1)+f4(ci-1)+f5(X′hw)]} (4)
其中,输出outputi即为该时间步下模型预测的字符输出;softmax表示非线性激活函数,用于将模型的计算输出归一化为所有输出字符的概率系数,其中,概率系数最大的字符即为模型本步识别的预测输出字符;D为Dropout层;f3、f4、f5均表示全连接层。
4.根据权利要求2或3所述的手写体数学表达式识别方法,其特征在于,所述步骤S3中,规定所述上一时刻输出的LaTex字符C的初始值为<sos>,即为序列的开始符号;规定所述上一时刻的隐层H的初始值为一个满足Xavier分布的随机初始化向量。
5.根据权利要求1所述的手写体数学表达式识别方法,其特征在于,所述步骤S1中,所述预处理操作为对图片随机进行预定角度范围的旋转。
6.根据权利要求5所述的手写体数学表达式识别方法,其特征在于,所述预定角度范围为[-10°,-5°]或[5°,10°]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;博恒科技(杭州)有限公司,未经北京航空航天大学;博恒科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910896808.5/1.html,转载请声明来源钻瓜专利网。