[发明专利]一种基于鲁棒性表征学习的场景文本识别方法有效
申请号: | 202110625864.2 | 申请日: | 2021-06-04 |
公开(公告)号: | CN113343707B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 明悦;范春晓;孙娟娟;邓冠玉;邓茜 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06V30/18;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 黄晓军 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 鲁棒性 表征 学习 场景 文本 识别 方法 | ||
本发明提供了一种基于鲁棒性表征学习的场景文本识别方法。该方法包括:将待识别的图像输入文本矫正网络,得到矫正图像;将矫正图像输入编码器,编码器利用坐标编码模块提取图像的空间纹理信息,利用上下文建模网络提取文本的语义建模特征,输出文本的语义建模特征给全局语义提取模块和解码器;全局语义提取模块对输入的文本的语义建模特征进行文本语义表征提取并输出给解码器;解码器根据接收的全局语义信息和文本的语义建模特征利用注意力机制进行串行分类预测,输出待识别的图像的文本识别结果。本发明通过文本表征网络和表征学习机制优化文本表征的提取和分布,有效提升文本识别中对于复杂背景干扰、多种字体风格与文本排布的鲁棒性。
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于鲁棒性表征学习的场景文本识别方法。
背景技术
场景文本识别(Scene TextRecognition,STR)是计算机视觉中的热门领域,皆在解决图像中的文本识别问题。随着深度学习技术和硬件水平的发展,文本识别技术得到了显著进步,在简单场景中的准确度已达可用的水准。而自然场景中的文本可能具有非水平的排布,如倾斜、竖直、弯曲、透视等形式,且拍摄角度也会引起文本行排布的形变。不规则文本在自然场景中的频繁出现,对系统的检测和识别性能提出了挑战,需要研究者合理设计算法以应对任意排布的文本。近年来已出现大量的研究,专注于解决不规则文本的检测和识别问题。然而这些方法的性能尚未达到实用的程度,仍有如下的问题难以解决。
文本识别技术能够提高日常生活工作的生产效率,有重要的实用价值。然而现有方法仍难以解决特定的问题,远达不到实用的程度。为了推动识别技术的发展,提高生产力水平,需要对上述问题进行深入研究,提出合理的解决方案。
场景文本识别的目标是识别图像中的文本,是理解图像的前提。文本识别模型的输入为裁剪过的文本图像,可以通过文本检测步骤得到。在场景文本识别中,一方面的挑战来自于复杂场景的干扰,如光照遮挡、成像质量差和背景噪声等;另一方面的挑战是文本外观的多样性,如丰富的字体种类、不规则的文本排布等。
传统的场景文本识别解决方案通常为基于字符识别的方法和整词识别方法。基于字符识别的方法需要实现字符的分割与分类,识别准确率受分割结果的影响较大,而且需要字符标注作为监督,训练成本高。整词识别方法直接预测单词类别,但会面临词典过大和计算耗时高的问题,阻碍了传统方法的推广。
近年来的文本识别方法使用深度学习技术实现,取得了巨大的突破。为了避免字符分割问题,现有的方法通常把文本识别看作是序列识别任务:首先将输入图像的深度特征序列化,然后通过设计算法完成特征序列与标签序列的对齐,得到识别结果。链接时序分类(Connectionist Temporal Classification,CTC)和注意力机制(AttentionMechanism)能将输入序列转换为另一个序列,可实现任意长度的序列对齐,在语音识别、自然语言处理等序列识别的任务上得到了广泛运用。于是,近年来的文本识别方法多数采用CTC或者注意力机制来实现。
为了应对场景文本的排布多样性,识别弯曲、形变的文本行,近年来的研究者设计了不规则文本矫正算法,用于把非水平文本行矫正为接近水平的排布,将复杂的问题转换为更容易解决的规则文本识别问题。因此,基于矫正的文本识别算法在典型的文本识别网络的基础上,增加了文本矫正算法模块:先矫正输入的不规则文本行,得到规则的文本行后再进行文本识别。
可以将近年的文本识别方法粗略地分为如下三类:(1)基于链接时序分类的方法(CTC-based method);(2)基于注意力机制的方法(Attention-based method);(3)基于矫正的方法(Rectification-basedmethod)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110625864.2/2.html,转载请声明来源钻瓜专利网。