[发明专利]一种融合双通道的三层架构数学公式识别方法、系统和存储设备在审
申请号: | 202011046709.7 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112183544A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 胡健;苏松志 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06N3/04;G06F40/111;G06F40/126 |
代理公司: | 福州市景弘专利代理事务所(普通合伙) 35219 | 代理人: | 魏小霞;林祥翔 |
地址: | 361005 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 双通道 三层 架构 数学公式 识别 方法 系统 存储 设备 | ||
本发明涉及数学公式识别技术领域,特别涉及一种融合双通道的三层架构数学公式识别方法、系统和存储设备。所述一种融合双通道的三层架构数学公式识别方法,包括步骤:通过编码层对输入图片进行特征提取,所述特征包括:区域视觉信息;通过注意力层捕获区域视觉信息的上下文,生成context向量;通过解码层对所述context向量进行解码,生成公式对应的数学标记语言文件。通过编码层、注意力层和解码层三个层的上述操作,可获得精准度更高的数学公式。
技术领域
本发明涉及数学公式识别技术领域,特别涉及一种融合双通道的三层架构数学公式识别方法、系统和存储设备。
背景技术
数学公式在很多科学领域都有着相当广泛的使用,在阐述理论知识,描述科学问题等方面有着必不可少的作用。我们通常可以通过使用数学工具来输入数学公式,但是这种方式通常是输入数学标记语言Latex来生成对应的数学公式,这需要用户一定的语法基础,而手写输入能够很好的解决输入的问题,用户能够更加便捷的输入数学公式。
相对于印刷体数学公式的识别,由于手写符号的模糊性,手写风格的多样性以及符号之间大量的粘连使得手写体数学公式识别的难度要远远高于印刷体数学公式识别。
通常数学公式识别流程可以分成三个阶段:符号分割阶段,符号识别阶段,结构分析阶段。针对实现三个阶段的方式不同,目前主流的识别方案可以分成两种:多阶段识别和单阶段识别。
多阶段的解决方案,首先要先对数学公式中的符号进行分割,然后对分割的符号进行识别,最后根据识别结果以及符号位置进行结构分析,这种方案虽然能够实现识别流程的模块化,但是存着一个非常严重的问题:错误继承。前一个阶段的误差会被传递到下一个阶段造成错误累加,从而影响整个识别流程的识别精度,这种方案在识别手写体数学公式的劣势更加突出,因为手写符号会存在大量的粘连很难准确的分割,同时分割出的手写符号由于丢失上下的信息从而加大了符号识别难度。
单阶段的解决方案,使用深度神经网络实现端到端的识别网络,一次性完成公式识别的三个阶段。识别网络通常采用编码解码结构,首先使用编码器对输入的数学公式图片提取特征并进行编码,然后由带有注意力机制的解码器对编码器提取的特征进行扫描,用最相关的区域描述分割的符号,输出数学公式对应的数学标记语言Latex。
在编码器部分,由于不同数学公式的符号尺寸不一致,为了更加有效地利用图片中的视觉特征,研究者通过在编码器中同时提取多个不同粒度的特征输出来解决符号尺度不一致的问题。然而在编码层提取多个不同粒度的特征,虽然都够解决符号尺寸问题,但是提取特征的表征力不足,没有充分利用符号的上下文信息,引入了大量的无关特征。
在解码器的注意力机制中,根据当前时刻的注意力特征图对编码器的输出特征图加权求和得到一个向量用来表示当前识别字符最相关的区域。然后对序列化后向量解码输出。只使用当前时刻的注意力,在识别结果中会出现符号重复和符号缺失的现象。
由于循环神经网络在模型训练的初期,预测能力很差,现有技术会用真实标签作为循环网络中神经单元的输入,从而防止某个神经元的发生了较大了偏差而影响这个循环神经网络的训练效果。虽然使用真实标签代替预测结果的输入让模型在训练阶段有较好的识别效果,但是由于在测试过程中缺少真实标签的指导反而会使得识别精度变低。
发明内容
为此,需要提供一种融合双通道的三层架构数学公式识别方法,用以解决现有单阶段公式识别技术精度低的问题。具体技术方案如下:
一种融合双通道的三层架构数学公式识别方法,包括步骤:
通过编码层对输入图片进行特征提取,所述特征包括:区域视觉信息;
通过注意力层捕获区域视觉信息的上下文,生成context向量;
通过解码层对所述context向量进行解码,生成公式对应的数学标记语言文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011046709.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种综合利用虾加工副产物的方法
- 下一篇:一种城市轨道车辆空气多级过滤装置