[发明专利]一种基于深度学习的注意力机制文本识别方法在审
申请号: | 202010340618.8 | 申请日: | 2020-04-26 |
公开(公告)号: | CN111553350A | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 杨海东;黄坤山;李俊宇;彭文瑜;林玉山;魏登明 | 申请(专利权)人: | 佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06N3/04 |
代理公司: | 广州科沃园专利代理有限公司 44416 | 代理人: | 徐莉 |
地址: | 528200 广东省佛山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 注意力 机制 文本 识别 方法 | ||
本发明公开一种基于深度学习的注意力机制文本识别方法,包括S1、获取模型训练数据集;S2、对所述模型训练数据集进行预处理;S3、构建模型卷积层,输入所述模型训练数据集进行特征提取,获得图像的特征图,以待输出给后面循环神经网络结构,其视觉特征是通过卷积层与最大池层交错的多层卷积神经网络提取的,CNN接受原始输入,并生成尺寸为D×H×W的特征网格V,其中D表示通道数,H和W是结果特征图的高度和宽度等6个步骤,本发明克服了使用基于CTC的模型的神经OCR技术文本识别准确率低的难题,同时可以显著较少网络的计算量,并且能保证模型对公式的预测精度没有太大的下降。
技术领域
本发明涉及深度学习文本识别技术领域,尤其涉及一种基于深度学习的注意力机制文本识别方法。
背景技术
在信息量非常大的时代,PDF和图片占信息量较大一部分,这就造成了用户对图片和PDF文本识别的大量需求,即光学字符识别(OCR,最常用于识别图像中的自然语言),包括对各种语言文字、手写体、数字等。而其中大量学术相关文本里面会存在特殊标识,像数学公式等,它相较于文字的识别要更复杂,数学公式的作为识别成为一个特殊的识别领域,存在许多困难,我们运用一个基于真实世界渲染的数学表达式与LaTeX标记标配对的数据集的深度学习注意力机制的公式识别,可以较好的满足用户需求,提供高精度公式识别(即把图片中的数学公式,识别出并转换为LaTeX标记)。
而传统方法是采用基于CTC的模型的神经OCR技术,其编码解码结构使用的RNN,它能够处理一定的短期依赖,但无法处理长期依赖问题,因为当序列较长时,序列后部的梯度很难反向传播到前面的序列,同样的,RNN还可能出现梯度爆炸问题,其模型对于复杂一点的 (比如复杂公式符号)的文本识别准确率比较一般。
发明内容
针对上述问题,本发明提出一种基于深度学习的注意力机制文本识别方法,主要解决背景技术中的问题。
本发明提出一种基于深度学习的注意力机制文本识别方法,包括以下步骤:
S1、获取模型训练数据集;
S2、对所述模型训练数据集进行预处理;
S3、构建卷积神经网络CNN模型,输入所述模型训练数据集进行特征提取,获得图像的特征图,所述特征图是通过卷积层与最大池层交错的多层卷积神经网络提取,所述卷积神经网络CNN接受所述模型训练数据集的原始输入,并生成尺寸为D×H×W的特征网格V,其中D表示通道数,H和W是结果特征图的高度和宽度;
S4、接着构建双向循环神经网络RNN编码器,将卷积神经网络 CNN输出的特征图输入到双向循环神经网络RNN编码器;
S5、构建注意力机制,并跟踪特征图像的下一个当前位置以生成标记,所述位置通过关注的上下文向量ct传递,定义一个潜在的分类变量zt∈{1,···,H}×{1,···,W}来表示模型正在参与哪个单元格,若访问注意力分布zt~p(zt),则上下文定义为对源端特征的期望为:
S6、双向循环神经网络编码器将特征图输出到带注意力机制的长短期记忆网络LSTM解码器,长短期记忆网络LSTM的隐藏层特征为512,最后得到图片对应的公式latex代码的概率分布。
进一步改进在于,所述步骤S2具体包括:
S21、利用Python脚本裁剪数据集中的公式图片的空白区域,提取重要像素;
S22、对模型训练数据集IM2LATEX-100K中的公式标记各项插入空字符以便索引,然后生成数据集IM_2_LATEX-100K;
S23、对模型训练数据集IM_2_LATEX-100K去除1/4的过大的公式图片对应的图片索引,然后生成latex代码的词袋文本文件 latex.t。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司,未经佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010340618.8/2.html,转载请声明来源钻瓜专利网。