[发明专利]基于字符分割的多方向自然场景文本检测方法有效
申请号: | 202010579227.1 | 申请日: | 2020-06-23 |
公开(公告)号: | CN111753714B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 刘姝;邹北骥;杨文君;姜灵子 | 申请(专利权)人: | 中南大学 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/148;G06V30/19;G06V10/82;G06N3/0464;G06N3/0442;G06N3/049 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 字符 分割 多方 自然 场景 文本 检测 方法 | ||
1.一种基于字符分割的多方向自然场景文本检测方法,包括如下步骤:
S1.获取训练数据集,并对训练数据集进行标定;
S2.建立基于字符分割的多方向自然场景文本检测初步模型;所述基于字符分割的多方向自然场景文本检测初步模型为金字塔网络框架+双向长短期记忆网络的检测模型;具体为金字塔网络框架的第一阶段到第五阶段的卷积层为ResNet50网络,在每一个阶段均设置一个上采样操作;同时在金字塔网络后,再连接一个双向长短期记忆网络;
S3.用步骤S1标定的训练数据对步骤S2建立的基于字符分割的多方向自然场景文本检测初步模型进行训练,从而得到基于字符分割的多方向自然场景文本检测模型;具体为采用如下步骤进行训练并得到检测模型:
A.将训练数据中的原始图像分为RGB三个通道,并输入到金字塔网络框架中;
B.将原始图像输入到第一卷积层后得到第一卷积结果;将第一卷积结果输入到第二卷积层得到第二卷积结果;将第二卷积结果输入到第三卷积层得到第三卷积结果;将第三卷积结果输入到第四卷积层得到第四卷积结果;将第四卷积结果输入到第五卷积层得到第五卷积结果;
C.将第五卷积结果与第五卷积结果自身按位相加后,再进行一次上采样得到第五卷积图像;将第五卷积图像与第四卷积结果按位相加后,再进行一次上采样得到第四卷积图像;将第四卷积图像与第三卷积结果按位相加后,再进行一次上采样得到第三卷积图像;将第三卷积图像与第二卷积结果按位相加后,再进行一次上采样得到第二卷积图像;
D.将步骤C得到的第二卷积图像输入到全连接层中,经过实例平衡交叉熵损失函数后,得到文字字符实例预测概率图;
E.将步骤C得到的第二卷积图像输入到双向长短期记忆网络中,再经过连接损失函数后,得到字符间亲和度的特征图;
F.将步骤E得到的字符间亲和度的特征图和步骤D得到的文字字符实例预测概率图相加,得到文本行预测概率图;
G.将步骤F中得到的文本行预测概率图中,概率大于设定值的区域设定为文本行,并输出最终的预测结果,从而得到基于字符分割的多方向自然场景文本检测模型;
S4.采用步骤S3得到的基于字符分割的多方向自然场景文本检测模型,对自然场景的文本进行检测。
2.根据权利要求1所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤S1所述的获取训练数据集,并对训练数据集进行标定,具体为在公共数据集ICDAR2013与ICDAR2015上进行标定;标定字符和字符间的亲和度;在各字符中心的中点为字符间亲和度的中点,宽高分别为两字符宽高之和的一半。
3.根据权利要求1所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤D所述的实例平衡交叉熵损失函数,具体为采用如下算式作为实例平衡交叉熵损失函数:
Lclass=Lcross-entropy
式中Lcross-entropy为交叉熵损失。
4.根据权利要求3所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤E所述的连接损失函数,具体为采用如下算式作为连接损失函数:
式中为标定的置信度;SP为预测的置信度;R(c)表示标定的字符c所在的区域;P表示当前像素。
5.根据权利要求4所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤S3所述的训练,具体为模型预训练时,初始学习率为3×10-5,并且每2万次迭代学习率下降0.6×10-5,批处理大小设置为128,所有的训练图片均归一化为768×768大小;模型在训练5万步后,再进行真实场景数据进行训练和微调。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010579227.1/1.html,转载请声明来源钻瓜专利网。