[发明专利]场景文字识别方法、装置、电子设备及存储介质有效
申请号: | 202210063467.5 | 申请日: | 2022-01-20 |
公开(公告)号: | CN114092931B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 王金桥;陈盈盈;谭颖韬 | 申请(专利权)人: | 中科视语(北京)科技有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/774;G06K9/62 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王庆龙 |
地址: | 102300 北京市门头沟区石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 场景 文字 识别 方法 装置 电子设备 存储 介质 | ||
本发明提供一种场景文字识别方法、装置、电子设备及存储介质,其中方法包括:获取待识别的场景图像;将场景图像输入至场景文字识别模型,得到场景文字识别模型输出的文字识别结果;其中,场景文字识别模型是额外采用文字掩码增强训练和插值查询增强训练得到的。本发明提供的方法和装置,通过文字掩码增强训练提高了模型对于文字区域的感知能力,通过插值查询增强训练提高了模型对于文字序列的感知能力,当模型对文字识别结果进行语言纠正时具有更高的准确率,通过将模型中视觉识别层和语言纠正层进行联合训练的方法,提高了模型在文字序列较长或者场景图像质量较低时对场景文字识别的准确率,提高了场景文字识别模型的鲁棒性和识别性能。
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种场景文字识别方法、装置、电子设备及存储介质。
背景技术
场景文字识别(Scene Text Recognition)是计算机视觉中的基本研究方向之一,通过提取图像中的文字转化为计算机可辨识和可操作的符号,在生活中也具有广泛的应用,例如路牌识别、自动驾驶、场景翻译、信息检索等等。由于自然场景中的文字往往受到字体丰富、形态不规则、遮挡干扰等因素的影响,图像的文字区域定位以及特征的判别性表达仍是具有挑战性的任务。
现有技术中,通过采用卷积神经网络或者递归神经网络等深度学习方法对复杂场景中的文字进行识别,当文字序列较长或者场景图像质量较低时,场景文字识别的准确率差。
发明内容
本发明提供一种场景文字识别方法、装置、电子设备及存储介质,用于解决现有技术中当文字序列较长或者场景图像质量较低时,场景文字识别的准确率差的技术问题。
本发明提供一种场景文字识别方法,包括:
获取待识别的场景图像;
将所述场景图像输入至场景文字识别模型,得到所述场景文字识别模型输出的文字识别结果;
其中,所述场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;
所述基础训练为基于样本场景图像,以及所述样本场景图像对应的文字识别标签对所述场景文字识别模型进行训练;
所述文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在所述样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对所述场景文字识别模型进行训练;
所述插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在所述样本场景图像对应的文字识别标签中对所述若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对所述场景文字识别模型进行训练。
根据本发明提供的场景文字识别方法,所述场景文字识别模型是基于如下步骤训练得到的:
基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行基础训练、文字掩码增强训练和插值查询增强训练,得到所述场景文字识别模型;
其中,任一样本场景图像中各文字的查询向量是基于各文字在所述任一样本场景图像中的识别次序和所述任一样本场景图像的图像编码特征的特征深度确定的。
根据本发明提供的场景文字识别方法,所述基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行文字掩码增强训练,得到所述场景文字识别模型,包括:
在任一样本场景图像的图像编码特征中随机选择若干个文字进行擦除,得到擦除后的图像编码特征;
在所述任一样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,得到擦除后的文字识别标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科视语(北京)科技有限公司,未经中科视语(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210063467.5/2.html,转载请声明来源钻瓜专利网。