[发明专利]场景文字检测方法有效

申请号：	201910567794.2	申请日：	2019-06-27
公开（公告）号：	CN110263877B	公开（公告）日：	2022-07-08
发明（设计）人：	张勇东;王裕鑫;谢洪涛;李岩	申请（专利权）人：	中国科学技术大学;北京中科研究院
主分类号：	G06V20/62	分类号：	G06V20/62;G06V30/166;G06V30/19
代理公司：	北京凯特来知识产权代理有限公司 11260	代理人：	郑立明;郑哲
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	场景文字检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种场景文字检测方法，其特征在于，包括：

利用神经网络对输入图像进行特征提取，并对提取的特征图进行上采样操作，得到不同尺寸的特征图；

以最大尺寸的特征图为标准，将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸；

将映射到相同尺寸的特征图进行不同尺度信息的融合，这一融合操作能够使不同尺度的文字特征在融合后的统一尺寸的特征图中得到统一的激活；

对融合后的特征图进行文字框的回归和分类操作，得到场景文字检测结果；

其中，所述将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸包括：通过通道匹配层改变输入特征图的通道数到指定大小；由尺寸映射层通过压缩特征图的通道数实现尺寸的扩大，从而将输入特征图的尺寸映射为最大尺寸的特征图相同的尺寸；

所述将映射到相同尺寸的特征图进行不同尺度信息的融合包括：通过两个方向的连续卷积操作对包含不同尺度信息的特征图进行叠加；同时运用注意力机制控制前层的尺度信息的传递；再通过特征聚合操作将叠加结果与注意力机制操作结果聚合。

2.根据权利要求1所述的一种场景文字检测方法，其特征在于，通过连续的上采样模块对提取的特征图进行上采样操作；在上采样过程中，将当前的特征图和相同尺寸的浅层特征图进行级联操作。

3.根据权利要求1所述的一种场景文字检测方法，其特征在于，在训练阶段，采用随机梯度下降法进行端到端的训练，整体损失函数为：

L＝L_cls+λ_regL_reg

上式中，L_cls为分类损失，L_reg为回归损失，λ_reg为平衡参数。

4.根据权利要求3所述的一种场景文字检测方法，其特征在于，

分类损失L_cls表示为：

L_cls＝λ_RRL+λ_DL_Dice

IoU＝S∩G/S∪G

回归损失L_reg表示为：

L_reg＝L_lo_c+L_θ

L_θ＝1-cos(θ′-θ*)

其中，RL代表召回损失，L_Dice代表交并比损失，λ_R与λ_D均代表平衡参数，η₁、η₂代表平衡参数，p代表预测当前像素为文字的概率大小，y代表当前像素对应的标签，S代表预测的单通道文字评分图中的每个连通域，IoU代表交集比上并集的值，β表示阈值，α表示增加的权重，e为常数；P代表预测的文字框，G代表对应的标签文字框，θ′代表预测的角度，θ*代表真实角度，L_θ代表角度的损失。

5.根据权利要求1所述的一种场景文字检测方法，其特征在于，在测试阶段，在得到场景文字检测结果后加入非极大化抑制操作，对重复检测的文字框进行筛选，得到最终的检测结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学;北京中科研究院，未经中国科学技术大学;北京中科研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910567794.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种雨声信号降噪处理方法和系统
下一篇：一种基于集成学习的脉冲星候选体识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]场景文字检测方法有效

专利文献下载