[发明专利]一种基于生成对抗网络的自然场景文本识别方法在审
申请号: | 202010337878.X | 申请日: | 2020-04-26 |
公开(公告)号: | CN113553885A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 张培尧;李斌;薛向阳 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 卢泓宇 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 自然 场景 文本 识别 方法 | ||
1.一种基于生成对抗网络的自然场景文本识别方法,用于根据待识别的自然场景文本图像识别出该自然场景文本图像中被复杂环境干扰的图像文本内容,其特征在于,包括:
训练数据获取步骤,采集用于训练的文本内容以及环境图像并合成多个训练用成对图片,每个所述训练用成对图片包含对应同一个所述文本内容的一张二值化图片以及一张复杂背景图片,每个所述训练用成对图片的标签为合成时所使用的所述文本内容;
生成对抗网络训练步骤,基于所述训练用成对图片训练用于将复杂背景图片转换为二值化图片的生成对抗网络,所述生成对抗网络具有生成器模块、判别器模块以及预处理损失模块,
所述生成器模块用于对所述复杂背景图片进行处理并生成拟合二值化图片分布的输出图片,
所述判别器模块用于对所述输出图片以及所述二值化图片进行处理并判断所述输出图片更符合所述第一训练数据中的所述二值化图片的概率作为输出概率,
所述预处理损失模块用于根据所述二值化图片、所述输出图片以及所述输出概率计算所述生成对抗网络的对抗约束损失,并传递给所述生成器模块以及所述判别器模块的参数进行迭代更新,直至所述生成对抗网络收敛;
文本识别网络训练步骤,采用有监督的方式根据所述训练用成对图片以及所述标签对用于根据二值化图片识别出文本内容的文本识别网络进行训练;
文本识别步骤,将所述自然场景文本图像输入所述生成器模块并生成二值化的待识别图像,进一步将该待识别图像输入所述文本识别网络并识别出所述自然场景文本图像中的所述图像文本内容。
2.根据权利要求1所述的基于生成对抗网络的自然场景文本识别方法,其特征在于:
其中,所述文本识别网络包括特征提取器模块、特征解码器模块和损失模块,
所述特征提取器模块的通道层次采用注意力机制,用于提取所述二值化图片的图片特征,
所述特征解码器模块用于对所述图片特征进行解码并输出对应所述文本内容的预测结果,
所述损失模块用于根据所述预测结果以及所述训练用成对图片的所述标签计算所述文本识别网络的损失,并通过反向传播算法对所述特征提取器模块以及所述特征解码器模块的参数进行更新,直到所述文本识别网络收敛。
3.根据权利要求1所述的基于生成对抗网络的自然场景文本识别方法,其特征在于:
其中,所述对抗约束损失的损失函数为:
式中,G代表所述生成器模块,D代表所述判别器模块,z表示所述生成器模块的输入,x表示条件信息,y表示所述第一训练数据中的所述二值化图片,G(x,z)为所述输出图片,logD(x,y)为在条件信息x下输入的所述二值化图片符合所述第一训练数据中的所述二值化图片的概率的对数形式,log(1-D(x,G(x,z)))为所述输出图片不符合所述第一训练数据中的所述二值化图像的概率的对数形式,cGAN为所述生成对抗网络,E为函数的数学期望。
4.根据权利要求1所述的基于生成对抗网络的自然场景文本识别方法,其特征在于:
其中,所述训练用成对图片中包含的文字是多种字体。
5.根据权利要求1所述的基于生成对抗网络的自然场景文本识别方法,其特征在于:
其中,所述生成器模块由编码器单元和解码器单元构成,
所述训练用成对图片中的所述复杂背景图片经由所述编码器单元进行特征提取,再流向所述解码器单元输出并生成所述输出图片。
6.根据权利要求1所述的基于生成对抗网络的自然场景文本识别方法,其特征在于:
其中,所述判别器模块由全卷积神经网络构成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010337878.X/1.html,转载请声明来源钻瓜专利网。