[发明专利]文字识别方法、装置、电子设备及存储介质在审
申请号: | 202010541723.8 | 申请日: | 2020-06-15 |
公开(公告)号: | CN111899292A | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 宋祺;姜仟艺;张睿 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06T7/40 | 分类号: | G06T7/40;G06N3/04;G06K9/62;G06K9/34 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 识别 方法 装置 电子设备 存储 介质 | ||
本申请公开了文字识别方法、装置、电子设备及存储介质,该方法包括:提取目标图像的纹理特征;基于第一类注意力机制对纹理特征进行过滤,得到注意力增强特征,其中,第一类注意力机制包括空间注意力机制和/或通道注意力机制;基于第二类注意力机制和注意力增强特征得到文字识别结果,其中,第二类注意力机制包括互注意力机制。本申请的有益效果在于:将多种注意力机制有机结合应用于文字识别,能够快速识别字符特征,而不受文字排版的影响,显著提升文字识别的准确率,尤其对于不规则文字的识别,效果显著,且计算量小、计算速度快、可用性强、适用范围广。
技术领域
本申请涉及数据处理技术领域,具体涉及一种文字识别方法、装置、电子设备及存储介质。
背景技术
文字识别作为计算机视觉中的一种常用技术,被广泛应用于文档分析、证照识别、街景识别、资质审核、自动录入等场景中,为人们的日常生活和工作提供了很大的便利。但是现有技术依然存在着很多不足之处,如现有文字识别的方法对比较标准的水平或垂直文字行能够有效识别,但是,针对不规则排列的文字,识别效果普遍不好,识别正确率较低,仅能识别其中部分弯曲、倾斜的文字行,而在中文文字图像中,不规则的排列比其他一些字母文字(例如英文、法文等)更加显著,针对这种不规则的文字,现有技术还缺乏有效的解决方案。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的文字识别方法、装置、电子设备及存储介质。
依据本申请的一个方面,提供了一种文字识别方法,该方法包括:
提取目标图像的纹理特征;
基于第一类注意力机制对纹理特征进行过滤,得到注意力增强特征,其中,第一类注意力机制包括空间注意力机制和/或通道注意力机制;
基于第二类注意力机制和注意力增强特征得到文字识别结果,其中,第二类注意力机制包括互注意力机制。
可选的,在上述方法中,基于第一类注意力机制对纹理特征进行过滤,得到注意力增强特征包括:
基于第一类注意力机制生成纹理特征的信息矫正掩模;
将生成的各信息矫正掩模分别与纹理特征进行融合,得到相应的注意力增强特征。
可选的,在上述方法中,第一类注意力机制还包括全局注意力机制和/或局部注意力机制。
可选的,在上述方法中,基于第二类注意力机制和注意力增强特征得到文字识别结果包括:
将基于全局注意力机制得到的注意力增强特征作为互注意力机制的V输入和K输入,将基于局部注意力机制得到的注意力增强特征作为互注意力机制的Q输入。
可选的,在上述方法中,第二类注意力机制还包括自注意力机制,基于第二类注意力机制和注意力增强特征得到文字识别结果包括:
利用自注意力机制确定文字预测结果;
基于互注意力机制、注意力增强特征和文字预测结果得到文字识别结果。
可选的,在上述方法中,自注意力机制通过文字识别模型中的自注意力模块实现;
在训练文字识别模型时,自注意力模块根据输入的训练图像的标注信息输出自注意力特征,以使文字识别模型根据自注意力特征和注意力增强特征的融合后的特征确定文字识别结果。
可选的,上述方法可应用于文字识别模型中,文字识别模型训练时使用的训练图像经过如下的至少一项预处理:旋转、形变、色彩变换。
依据本申请的另一方面,提供了一种文字识别装置,该装置包括:
特征提取单元,用于提取目标图像的纹理特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010541723.8/2.html,转载请声明来源钻瓜专利网。