[发明专利]一种融合空洞卷积的快速场景文本检测方法在审
申请号: | 202210046573.2 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114529894A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 谭钦红;江一峰;黄俊 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06N3/04;G06K9/62;G06V10/82;G06V10/774;G06V10/80 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 空洞 卷积 快速 场景 文本 检测 方法 | ||
1.一种融合空洞卷积的快速场景文本检测方法,具体包括以下步骤:
S1、获取文本检测训练数据集,并对训练数据集进行标签生成;
S2、建立融合空洞卷积的快速场景文本检测初步模型;所述融合空洞卷积的快速场景文本检测初步模型包括轻量级特征提取模块、空洞卷积模块和可微分二值化模块;
S3、使用步骤S1所述标签生成的训练数据集对步骤S2所述建立的融合空洞卷积的快速场景文本检测初步模型,并使用损失函数计算损失值以调整所述初步模型的参数得到融合空洞卷积的快速场景文本检测模型;
S4、使用步骤S3所述得到的融合空洞卷积的快速场景文本检测模型,对场景图像中的文本进行检测。
2.根据权利要求1所述的融合空洞卷积的快速场景文本检测方法,其特征在于步骤S1所述获取文本检测训练数据集,并对训练数据集进行标签生成,具体的对公共数据集ICDAR2015和CTW1500的原始标签进行标签生成。
3.根据权利要求1所述的融合空洞卷积的快速场景文本检测方法,其特征在于步骤S2所述融合空洞卷积的快速场景文本检测初步模型包括轻量级特征提取模块、空洞卷积模块和可微分二值化模块,具体为所述轻量级特征提取模块采用EfficientNet-b3作为主干网络提取输入图像的特征构建金字塔网络结构;特征融合层增加所述空洞卷积模块;特征融合模块将这两部分特征进行融合后再连接一个所述可微分二值化模块。
4.根据权利要求1所述的融合空洞卷积的快速场景文本检测方法,其特征在于步骤S3所述的使用步骤S1标签生成的训练数据集对步骤S2所述建立的融合空洞卷积的快速场景文本检测初步模型,并使用损失函数计算损失值以调整所述初步模型的参数得到融合空洞卷积的快速场景文本检测模型,具体采用如下步骤进行训练并得到文本检测模型:
S3.1、将标签生成的文本图像输入到轻量级主干网络EfficientNet-b3中提取第一阶段到第五阶段的特征图构建金字塔网络结构;
S3.2、空洞卷积模块分别使用空洞率为1,6,12,18的空洞卷积处理步骤S3.1中提取的1/16的特征图,得到空洞卷积特征;
S3.3、特征融合层将步骤S3.1与步骤S3.2生成的特征进行融合,并利用通道注意力机制对特征进行融合筛选;
S3.4、由步骤S3.3生成的融合特征图对概率图(P)和阈值图(T)进行预测,利用可微分二值化模块将概率图和阈值图结合得到近似的二值图(B),自适应的预测图像中每个位置的阈值,在推理阶段通过边界框形成从近似二值图B中得到文本区域的边界框。
5.根据权利要求4所述的融合空洞卷积的快速场景文本检测方法,其特征在于步骤S3.4所述的对概率图(P)和阈值图(T)进行预测时,采用如下算式作为预测损失函数:
L=Ls+α×Lb+β×Lt
式中Ls为概率图的损失,Lb为二值图的损失,Lt为阈值图的损失,α和β分别设置为1和10,Ls和Lb均采用二元交叉熵损失(BCE),算式如下所示:
Ls=Lb=∑yi·log xi+(1-yi)log(1-xi) 。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210046573.2/1.html,转载请声明来源钻瓜专利网。