[发明专利]基于双向特征语言模型的自然场景文本识别方法及装置有效
申请号: | 202110059600.5 | 申请日: | 2021-01-15 |
公开(公告)号: | CN112733768B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 张勇东;方山城;谢洪涛 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/18;G06V30/19;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 任岩 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双向 特征 语言 模型 自然 场景 文本 识别 方法 装置 | ||
1.一种基于双向特征语言模型的自然场景文本识别方法,其特征在于,包括:
将文本图像输入至文本识别网络的视觉模型中,得到视觉特征及视觉预测结果;其中,所述视觉预测结果表征所述文本图像中的文本信息对应的预测结果;
将所述视觉预测结果输入至所述文本识别网络的语言模型中,进行双向特征提取,得到语言特征;
迭代地执行以下操作:
将所述语言特征和所述视觉特征输入至所述文本识别网络的融合模型中,得到融合预测结果;
确定迭代次数是否满足迭代预设阈值;
在所述迭代次数未满足所述迭代预设阈值的条件下,将所述融合预测结果输入至所述语言模型中,进行双向特征提取,得到所述语言特征;在所述迭代次数满足所述迭代预设阈值的条件下,将所述融合预测结果作为最终结果;
所述语言模型包括多头注意力模块,所述多头注意力模块包括注意力掩码矩阵;
其中,所述多头注意力模块利用注意力掩码矩阵控制所述视觉预测结果或者融合预测结果的双向特征访问。
2.根据权利要求1所述的方法,其特征在于,
所述语言模型和所述视觉模型之间通过梯度阻塞的方式实现所述视觉模型和所述语言模型的分离;
所述视觉模型输出的所述视觉预测结果为概率向量;
所述语言模型输出的所述语言特征为概率向量;
所述融合模型输出的所述融合预测结果为概率向量。
3.根据权利要求1所述的方法,其特征在于,
将所述视觉预测结果或者所述融合预测结果输入至所述文本识别网络的语言模型中,进行双向特征提取,得到语言特征包括:
利用概率映射将所述视觉预测结果或者所述融合预测结果进行处理,得到字符特征向量;
获取所述文本图像的字符位置特征向量;
利用所述注意力掩码矩阵对所述视觉预测结果或者融合预测结果进行掩码处理,得到双向表达特征向量;
将所述字符特征向量、字符位置特征向量和所述双向表达特征向量输入至所述语言模型的多层堆叠的多头注意力模块中,得到语言预测结果。
4.根据权利要求1所述的方法,其特征在于,
所述文本识别网络通过以下操作训练:
获取训练样本数据集;其中,所述训练样本数据集包括有标注文本图像数据集和无标注文本图像数据集;
搭建初始文本识别网络和损失函数;其中,所述视觉模型与所述语言模型梯度阻塞;以及
利用所述训练样本数据集和所述损失函数训练所述初始文本识别网络,得到所述文本识别网络。
5.根据权利要求4所述的方法,所述利用所述训练样本数据集和所述损失函数训练所述初始文本识别网络,得到所述文本识别网络包括:
利用所述有标注文本图像数据集中的训练样本和所述损失函数训练所述初始文本识别网络,得到预训练文本识别网络;
将所述无标注文本图像数据集中的无标注文本图像输入至所述预训练文本识别网络中,得到所述无标注文本图像的伪标签;
对所述无标注文本图像的伪标签进行筛选处理,确定满足预设筛选条件的伪标签,并将所述满足预设筛选条件的伪标签的无标注文本图像和所述伪标签作为优化训练样本;
利用所述优化训练样本训练所述预训练文本识别网络,得到文本识别网络。
6.根据权利要求5所述的方法,其中,所述预设筛选条件包括:
所述无标注文本图像的伪标签最小置信度C大于等于置信度阈值;
其中,所述伪标签最小置信度C的表达式如下:
其中,Pm(yt)为第t个字符在迭代修正语言模型中第m轮的概率分布。
7.根据权利要求4所述的方法,其中,所述损失函数包括:
其中,Lv,Ll,Lf为分别为视觉模型,语言模型及融合模型的交叉熵损失;其中分别为第i轮的损失,λv及λl为视觉模型和语言模型的平衡因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110059600.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带有转弯机构的直线型切割吻合器
- 下一篇:一种碳钢复合反应釜及其制备工艺