[发明专利]一种基于生成对抗网络的自然场景文本识别方法在审

专利信息
申请号: 202010337878.X 申请日: 2020-04-26
公开(公告)号: CN113553885A 公开(公告)日: 2021-10-26
发明(设计)人: 张培尧;李斌;薛向阳 申请(专利权)人: 复旦大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/46;G06N3/04;G06N3/08;G06K9/62
代理公司: 上海德昭知识产权代理有限公司 31204 代理人: 卢泓宇
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 生成 对抗 网络 自然 场景 文本 识别 方法
【说明书】:

发明提供一种基于生成对抗网络的自然场景文本识别方法,其特征在于,包括:训练数据获取步骤,采集用于训练的文本内容以及环境图像并合成多个训练用成对图片;生成对抗网络训练步骤,基于训练用成对图片训练用于将复杂背景图片转换为二值化图片的生成对抗网络,生成对抗网络具有生成器模块、判别器模块以及预处理损失模块;文本识别网络训练步骤,训练用于根据二值化图片识别出文本内容的文本识别网络;文本识别步骤,将自然场景文本图像输入生成器模块以及文本识别网络并识别出自然场景文本图像中的图像文本内容。本发明能够应对自然场景图像中复杂背景对文本识别造成干扰的问题,有效提升了场景文本识别的准确率和鲁棒性。

技术领域

本发明属于图像处理技术领域,具体涉及一种基于生成对抗网络的自然场景文本识别方法。

背景技术

人类通过眼睛这一视觉感知器感知周围的环境,接收外界的视觉刺激,视觉皮层对这些视觉信息进行抽象处理,并传递给我们的大脑,帮助大脑做出更加精准科学的判断和决策。得益于人工智能技术的发展,计算机的智能视觉系统可以自动感知场景信息,更好的解释和理解视觉世界,并做出相应的决策和反应。

文本在自然场景中起着传播信息的重要作用,扮演传递消息的基本工具标志。自然场景文本识别在实际生产生活中有着非常丰富的应用场景。从最初简单的手写邮编数字识别到现在深入到交通、安防、海关、餐饮等众多领域,是无人驾驶、传图翻译、车牌识别、广告识别等应用的重要环节。自然场景文本识别已经成为丰富多样的场景下不可或缺的智能化工具,智能化要求也越来越高。

自然场景文本识别的实际应用场景环境复杂,用于文本识别任务的图像会受到光照、气候、周围遮挡物等自然环境因素的干扰,不同光照条件下图像表面的纹理特征会发生改变,增加识别难度。雨雪天气以及有雾的情况下采集到的图像会在图像前景造成干扰。另外自然场景下会出现文本区域附近存在树叶、建筑物、栅栏、交通标志等的情况,对图像中字符前景和自然背景的纹理特征产生干扰,从而使得识别和理解图像中的文本内容难以提高识别准确率。

发明内容

为解决自然场景文本识别任务存在的复杂背景干扰问题,提供一种能够在复杂自然场景图像中准确地识别出文本内容的自然场景文本识别方法,本发明采用了如下技术方案:

本发明提供了一种基于生成对抗网络的自然场景文本识别方法,其特征在于,包括:训练数据获取步骤,采集用于训练的文本内容以及环境图像并合成多个训练用成对图片,每个训练用成对图片包含对应同一个文本内容的一张二值化图片以及一张复杂背景图片,每个训练用成对图片的标签为合成时所使用的文本内容;生成对抗网络训练步骤,基于训练用成对图片训练用于将复杂背景图片转换为二值化图片的生成对抗网络,生成对抗网络具有生成器模块、判别器模块以及预处理损失模块,生成器模块用于对复杂背景图片进行处理并生成拟合二值化图片分布的输出图片,判别器模块用于对输出图片以及二值化图片进行处理并判断输出图片为真实二值化图片的概率作为输出概率,预处理损失模块用于根据二值化图片、输出图片以及输出概率计算生成对抗网络的对抗约束损失,并传递给生成器模块以及判别器模块的参数进行迭代更新,直至生成对抗网络收敛;文本识别网络训练步骤,采用有监督的方式根据训练用成对图片以及标签对用于根据二值化图片识别出文本内容的文本识别网络进行训练;文本识别步骤,将自然场景文本图像输入生成器模块并生成二值化的待识别图像,进一步将该待识别图像输入文本识别网络并识别出自然场景文本图像中的图像文本内容。

本发明提供的基于生成对抗网络的自然场景文本识别方法,还可以具有这样的技术特征,其中,文本识别网络包括特征提取器模块、特征解码器模块和损失模块,特征提取器模块的通道层次采用注意力机制,用于提取二值化图片的图片特征,特征解码器模块用于对图片特征进行解码并输出对应文本内容的预测结果,损失模块用于根据预测结果以及训练用成对图片的标签计算文本识别网络的损失,并通过反向传播算法对特征提取器模块以及特征解码器模块的参数进行更新,直到文本识别网络收敛。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010337878.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top