[发明专利]基于编解码的数学公式识别方法及装置、可读存储介质在审

专利信息
申请号: 202111581067.5 申请日: 2021-12-22
公开(公告)号: CN114255379A 公开(公告)日: 2022-03-29
发明(设计)人: 周名杰;程艳云 申请(专利权)人: 南京邮电大学
主分类号: G06V10/774 分类号: G06V10/774;G06V10/82;G06K9/62;G06F17/16;G06N3/04;G06N3/08
代理公司: 南京正联知识产权代理有限公司 32243 代理人: 张玉红
地址: 210023 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 解码 数学公式 识别 方法 装置 可读 存储 介质
【说明书】:

发明提出基于编解码的数学公式识别方法及装置、可读存储介质,输入图片通过ResNet网络和位置编码模块进行特征的编码,紧接着使用多头注意力模型及前向网络的组合对特征序列进行解码计算实现预测避免了单字符切割和识别的步骤,能够从手写数学公式的整体信息中学习到字符间的空间关系,最终完成整个手写数学公式的识别。本发明的有益效果为:本方法编码模块中通过在ResNet网络的输出中添加位置信息,使得编码模块能够更准确地学习到公式图片的特征信息;解码模块中,不同于使用循环神经网络的方法,本方法通过使用多头注意力模型来进行并行化计算,使得运行速度得到了明显的改进。

技术领域

本发明涉及图像识别技术领域,具体是涉及一种基于编码解码模型的端到端脱机手写数学公式识别方法及装置。

背景技术

数学公式在日常生活中经常使用,在教育领域、科技工作等情景中更是十分常见,因此对于数学公式的有效识别成为十分重要的工作。这其中,手写数学公式因为其便利性,也使得对其的正确识别,更加具有现实意义。但是不同于普通文本,数学公式往往包含复杂的二维结构,并且在脱机手写数学公式中,因为手写字符的不规则和无法获取笔画信息,传统的光学字符识别技术往往不能使用。因此手写数学公式识别不仅是当前手写识别领域重要的,也是具有挑战性的工作。

在传统图像识别技术领域,脱机手写数学公式识别主要是基于图像分割,字符识别和语义分析来实现,如基于投影的切分技术、轮廓映射方法、基于卷积神经网络(Convolutional Neural Network,CNN)的识别技术、基于语法的结构解析方法和结构模式识别方法等等。但是由于字符本身的变化、字符之间的粘连、结构的复杂、个人手写习惯的差别等等,传统方法在手写数学公式识别上的应用较为复杂且效果不佳。

近年来,随着人工智能技术的迅猛发展,出现了基于深度学习的手写数学公式识别方法,这些方法往往不需要进行单独的字符切割、识别和结构解析工作。如利用卷积神经网络CNN进行图像特征的提取和编码,再利用循环神经网络(Recurrent Neural Network,RNN)进行解码输出的方法。这些方法通常基于循环神经网络结构,存在时序依赖性和计算复杂度的问题。

发明内容

为解决上述技术问题,本发明提供了一种基于编解码的数学公式识别方法及装置、可读存储介质,不需要进行显性的字符切割、字符识别和结构解析工作,而是采用Resnet网络与位置编码,提取和计算特征序列,接着基于多头注意力模型对于特征序列进行并行计算,生成预测序列,最终完成整个手写数学公式的识别,减少了一般公式识别中的串行计算时间复杂度。

本发明所述的一种基于编解码的数学公式识别方法,步骤如下:

步骤1、选取只含手写数学公式的图片作为样本,将输入图片进行裁剪和灰度化操作;

步骤2、将调整后的图片输入编码网络得到特征序列;

步骤3、通过解码网络对图像特征进行解码及字符预测;

步骤4、通过L-softmax损失函数计算字符预测结果与正确值之间的损失,对预测结果进行评价。

进一步的,步骤1中,图片包含所有公式部分,裁剪至256*256像素。

进一步的,步骤2中,所述编码网络由改进的ResNet卷积网络和位置编码融合而成,其中改进的ResNet卷积网络采用ResNet18,包括卷积层和线性网络,卷积层输出为512×8×8的特征序列,经过线性网络处理后,得到维度为210×8×8的特征序列x;之后将特征序列x经过位置编码模块计算,附加各个序列的绝对位置信息,得到最终的特征序列F,即解码网络的输入序列。

进一步的,所述位置编码模块如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111581067.5/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top