[发明专利]一种基于注意力机制的文字识别方法及系统在审
申请号: | 202010651107.8 | 申请日: | 2020-07-08 |
公开(公告)号: | CN111783705A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 顾澄宇;王士林;陈凯;周异;何建华 | 申请(专利权)人: | 厦门商集网络科技有限责任公司;上海深杳智能科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04 |
代理公司: | 福州科扬专利事务所 35001 | 代理人: | 何小星 |
地址: | 361000 福建省厦*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 文字 识别 方法 系统 | ||
1.一种基于注意力机制的文字识别方法,其特征在于,包括如下步骤:
S1:构建文字识别模型,用于识别图像中的文字;所述文字识别模型由以下模块组成:
卷积神经网络,用于提取输入图像的特征图;
注意力机制模块,包括序列编码器、正向序列解码器和反向序列解码器,用于对所述特征图进行编码和解码处理,输出预测字符的特征向量;
字符解码层,用于将所述预测字符的特征向量编译为文字识别结果,同时将所述特征图编译为特征图字符概率向量;
S2: 构建训练样本集,所述训练样本集包括训练图像和与所述训练图像对应的图像标注,其中,所述图像标注为所述训练图像所表示的真实文字信息;
S3: 将训练样本集输入所述文字识别模型进行训练,训练使用的损失函数由所述正向序列解码器的交叉熵损失函数,所述反向序列解码器的交叉熵损失函数和特征图字符概率的损失函数三者进行加权求和得到,其中特征图字符概率的损失函数用于对所述特征图字符概率向量进行监督;
S4:将待识别的文字图像输入所述S3步骤中获得的训练后的文字识别模型中进行识别,在经过字符解码层以及softmax函数对所述文字识别结果概率归一化后,选取双向解码中置信度较高的分支作为预测结果。
2.根据权利要求1所述的一种基于注意力机制的文字识别方法,其特征在于,所述S1步骤中,所述序列编码器接收所述特征图,获取图像全局信息并输出编码信息,所述全局信息为所述特征图中每一个像素点的特征信息;
所述正向序列解码器和所述反向序列解码器接收所述编码信息,分别进行正向和反向的解码,输出正向解码信息和反向解码信息,其中,所述正向序列解码器和所述反向序列解码器为Transformer网络结构。
3.根据权利要求1所述的一种基于注意力机制的文字识别方法,其特征在于,所述S1步骤中,所述卷积神经网络包括多层卷积滤波器组和池化子模块,所述卷积滤波器组采用残差结构,所述字符解码层由多层神经网络全连接层构成,其中,所述多层卷积滤波器组提取图像特征,所述池化子模块改变特征图分辨率,所述卷积神经网络的输出是具有一定通道数目的特征图。
4.根据权利要求1所述的一种基于注意力机制的文字识别方法,其特征在于,所述S2步骤中,构建训练样本集需要对训练图像进行预处理,所述预处理包括,调整所述训练图像的分辨率,设置长宽比,对所述训练图像进行随机平移、随机旋转和随机色彩调整。
5.根据权利要求1所述的一种基于注意力机制的文字识别方法,其特征在于,所述S3步骤中,所述特征图字符概率的损失函数的计算方法为,先通过softmax函数计算所述特征图中每个像素点所代表的字符的概率向量,然后通过所有像素点的概率向量计算所述特征图中每个字符存在的概率,最后和所述图像标注计算交叉熵得到所述特征图字符概率的损失函数。
6.一种基于注意力机制的文字识别系统,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
S1:构建文字识别模型,用于识别图像中的文字;所述文字识别模型由以下模块组成:
卷积神经网络,用于提取输入图像的特征图;
注意力机制模块,包括序列编码器、正向序列解码器和反向序列解码器,用于对所述特征图进行编码和解码处理,输出预测字符的特征向量;
字符解码层,用于将所述预测字符的特征向量编译为文字识别结果,同时将所述特征图编译为特征图字符概率向量;
S2: 构建训练样本集,所述训练样本集包括训练图像和与所述训练图像对应的图像标注,其中,所述图像标注为所述训练图像所表示的真实文字信息;
S3: 将训练样本集输入所述文字识别模型进行训练,训练使用的损失函数由所述正向序列解码器的交叉熵损失函数,所述反向序列解码器的交叉熵损失函数和特征图字符概率的损失函数三者进行加权求和得到,其中特征图字符概率的损失函数用于对所述特征图字符概率向量进行监督;
S4:将待识别的文字图像输入所述S3步骤中获得的训练后的文字识别模型中进行识别,在经过字符解码层以及softmax函数对所述文字识别结果概率归一化后,选取双向解码中置信度较高的分支作为预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门商集网络科技有限责任公司;上海深杳智能科技有限公司,未经厦门商集网络科技有限责任公司;上海深杳智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010651107.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:柔性覆铜板制造方法及设备
- 下一篇:一种便于携带的乒乓球桌