[发明专利]一种印刷体数学公式识别方法、装置及存储介质有效
申请号: | 202210935737.7 | 申请日: | 2022-08-05 |
公开(公告)号: | CN115063799B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 龙军;洪泉;杨柳;王子冬 | 申请(专利权)人: | 中南大学 |
主分类号: | G06V30/10 | 分类号: | G06V30/10;G06N3/0464;G06V10/82;G06V30/148;G06V30/18 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 胡喜舟 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 印刷体 数学公式 识别 方法 装置 存储 介质 | ||
1.一种印刷体数学公式识别方法,其特征在于,包括:
获取印刷体数学公式图片并进行预处理;
基于编码器提取印刷体数学公式图片的第一特征矩阵;
提取第一特征矩阵的上下文语义特征,得到第二特征矩阵;
使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵;
将第三特征矩阵输入解码器中,得到数学公式的Latex格式序列;
所述提取第一特征矩阵的上下文语义特征,得到第二特征矩阵,具体包括:
将第一特征矩阵划分为H'*W'个维度为A的向量Qi,其中i∈1...H'*W';
同时将Qi按照i=1,2,3...H'*W'-1,H'*W'的顺序和i=H'*W',H'*W'-1...3,2,1的顺序分别输入双向GRU模型,每阶段双向GRU模型输出一个向量hj,其中hj的维度预设值为B;将得到的H'*W'个B维的向量拼接在一起并转换为三维矩阵,最终得到三维矩阵
同时将Qi按照i=1,W'+1,2*W'+1...,(H'-1)*W',H'*W'的顺序和i=H'*W',(H'-1)*W'...2*W'+1,W'+1,1的顺序分别输入双向GRU模型,每阶段双向GRU模型输出一个向量hk,其中hk的维度预设值为B;将得到的H'*W'个B维的向量拼接在一起并转换为三维矩阵,最终得到三维矩阵
最后将和每一个相同位置的元素值进行相加,得到第二特征矩阵
所述使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵,具体包括:
初始化生成一个与第二特征矩阵维度一致的矩阵P;
用P(i,x,y)代表矩阵P每个位置的元素值,同理V(2)(i,x,y)代表第二特征矩阵每个位置的元素值;则矩阵P的计算方法如下:
其中,a和b分别代表垂直缩放系数和水平缩放系数;
将经过位置编码后得到的矩阵P和第二特征矩阵做矩阵加法,得到第三特征矩阵
2.根据权利要求1所述的印刷体数学公式识别方法,其特征在于,所述预处理过程包括:
裁剪出印刷体数学公式图片的公式核心区域图片。
3.根据权利要求2所述的印刷体数学公式识别方法,其特征在于,所述裁剪出印刷体数学公式图片的公式核心区域图片包括:
基于印刷体公式图片建立直角坐标系;
根据印刷体公式图片中像素点的灰度值确定公式核心区域的四个顶点坐标,基于四个顶点坐标裁剪出对应的公式核心区域图片。
4.根据权利要求1所述的印刷体数学公式识别方法,其特征在于,所述编码器基于残差卷积神经网络模型构建而成,用于提取印刷体数学公式图片的第一特征矩阵
5.根据权利要求4所述的印刷体数学公式识别方法,其特征在于,所述编码器为37层的残差卷积神经网络,其中conv_1采用64个7*7大小的卷积核,步长为1;池化层的窗口为2*2,步长为2;剩下36层卷积层中,所有卷积核均采用3*3大小卷积核,且步长为1;激活函数均采用Rule函数;剩下36层卷积层分为四种不同类型共计18个残差块,每个残差块内部由两层卷积层构成,组成如下:Conv_2x中包括2个残差块,其内部卷积层的卷积核数目为64;Conv_3x中包括6个残差块,其内部卷积层的卷积核数目为128;Conv_4x中包括6个残差块,其内部卷积层的卷积核数目为256;Conv_5x中包括4个残差块,其内部卷积层的卷积核数目为512。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210935737.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种挖掘式耕地机
- 下一篇:松卷设备和铝塑膜供给系统