[发明专利]一种成本高效的场景文字检测方法及系统在审
申请号: | 202111295077.2 | 申请日: | 2021-11-03 |
公开(公告)号: | CN114220086A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 曾港艳;张远;周宇;杨晓萌;王伟平 | 申请(专利权)人: | 中国科学院信息工程研究所;中国传媒大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 李文涛 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 成本 高效 场景 文字 检测 方法 系统 | ||
1.一种成本高效的场景文字检测方法,其特征在于,包括以下步骤:
利用作为源域的有标注的虚拟数据和作为目标域的无标注的真实数据,该虚拟数据和真实数据均为图像数据,对加入了熵感知的全局对齐模块和文字区域对齐模块的场景文字检测网络进行预训练,其中熵感知的全局对齐模块对源域和目标域的特征图进行对齐来减小域差异,文字区域对齐模块对分类分支网络预测的分类置信度大于置信度阈值的文字候选区域的特征进行对齐,训练后得到预训练模型;
利用预训练模型进行基于不确定性度量的主动学习,从目标域的真实数据中选取若干图像进行人工标注,得到人工标注的真实数据,利用该人工标注的真实数据重新训练一个新的场景文字检测网络;
利用预训练模型和重新训练后的场景文字检测网络,对目标域剩余的真实数据进行增强伪标注,得到增强伪标注的真实数据;
利用所述人工标注的真实数据和所述增强伪标注的真实数据,对预训练模型进行微调;
对微调后的预训练模型移除熵感知的全局对齐模块和文字区域对齐模块,得到参数更新后的场景文字检测网络,利用该参数更新后的场景文字检测网络处理待检测场景图像,得到任意形状的文字检测结果;
所述场景文字检测网络包括特征提取模块、区域候选网络模块、感兴趣区域对齐网络模块和检测头网络模块,对输入的图像数据进行处理的步骤包括:利用特征提取模块的卷积神经网络提取场景图像的特征图;利用区域候选网络模块从特征图中选择文字候选区域;利用感兴趣区域对齐网络模块根据特征图和文字候选区域,获得文字候选区域的特征;利用检测头网络模块的分类分支、回归分支、分割分支对文字候选区域的特征进行处理,分类分支预测文字候选区域属于文字区域的置信度分数,回归分支预测文字候选区域与实际文字区域的位置偏移量,分割分支预测文字候选区域中文字的掩膜信息,并根据掩膜信息产生最终的任意形状的文字检测结果。
2.如权利要求1所述的方法,其特征在于,预训练的损失为Lpre=Lbase+λ1L1+λ2L2+λ3L3,其中,Lbase为预训练时场景文字检测网络产生的损失,L1,L2为预训练时熵感知的全局对齐模块产生的损失,L3为预训练时文字区域对齐模块产生的损失,λ1,λ2,λ3为权重参数。
3.如权利要求2所述的方法,其特征在于,预训练时的场景文字检测网络产生的损失为:
Lbase=Lrpn+Lcls+Lreg+Lseg
其中,Lrpn、Lcls、Lreg和Lseg分别表示区域候选网络模块、分类分支、回归分支和分割分支产生的损失;
重新训练新的场景文字检测网络的损失和微调时的损失均等于Lbase。
4.如权利要求2所述的方法,其特征在于,熵感知的全局对齐模块包括两个域判别器D1,D2和两个相应的梯度反转层GRL,结构为GRL+D1+GRL+D2;文字区域对齐模块包括一个域判别器D3和一个相应的梯度反转层GRL,结构为GRL+D3;其中域判别器用于最大化虚拟数据与真实数据的特征差异,输出域判别概率图;梯度反转层用于使模型的反向传播梯度经过该层时正负号取反,实现域判别器与特征提取模块的对抗学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所;中国传媒大学,未经中国科学院信息工程研究所;中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111295077.2/1.html,转载请声明来源钻瓜专利网。