[发明专利]一种单字检测方法、装置、设备及介质在审
申请号: | 202011389988.7 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112418220A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 陈甜甜 | 申请(专利权)人: | 浙江诺诺网络科技有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 巴翠昆 |
地址: | 310000 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 单字 检测 方法 装置 设备 介质 | ||
本申请公开了一种单字检测方法、装置、设备及介质,包括:获取训练样本集,训练样本集中的初始样本为包括初始box标签的文本图像,初始box标签为文本块的位置标签;针对任一初始样本,基于初始box标签生成多个尺度的目标box标签,得到目标样本;利用目标样本对初始神经网络模型进行训练,得到训练后模型;当获取到待检测文本图像,利用训练后模型输出多个包括预测box信息的第一特征图,不同第一特征图的预测box信息尺度不同;基于预测box信息对全部第一特征图进行合并,以得到第二特征图以及目标box信息;从第二特征图中提取出文本块图像;利用MSER算法输出文本块图像的单字检测结果。能够提升单字检测的鲁棒性。
技术领域
本申请涉及深度学习技术领域,特别涉及一种单字检测方法、装置、设备及介质。
背景技术
随着人工智能技术的发展,将深度学习应用于图像目标检测领域得到广泛研究,目前,大量研究都是基于文本检测与识别,而基于单字检测的研究少之甚少,若直接使用传统图像算法比如MSER(即Maximally Stable Extremal Regions,最大极值稳定区域)算法进行单字检测,将会由于背景的复杂性出现大量错检的情况,影响了检测的鲁棒性。
发明内容
有鉴于此,本申请的目的在于提供一种单字检测方法、装置、设备及介质,能够降低图像背景复杂性引起的错检率,从而提升单字检测的鲁棒性。其具体方案如下:
第一方面,本申请公开了一种单字检测方法,包括:
获取训练样本集,其中,所述训练样本集中的初始样本为包括初始box标签的文本图像,并且,所述初始box标签为文本块的位置标签;
针对所述训练样本集中的任一所述初始样本,基于所述初始box标签生成多个尺度的目标box标签,得到对应的目标样本;
利用所述目标样本对初始神经网络模型进行训练,得到训练后模型;
当获取到待检测文本图像,则利用所述训练后模型输出所述待检测文本图像对应的多个包括预测box信息的第一特征图,不同所述第一特征图的所述预测box信息的尺度不同;
基于所述预测box信息对全部所述第一特征图进行合并,以得到第二特征图以及目标box信息;
基于所述目标box信息从所述第二特征图中提取出对应的文本块图像;
利用预设MSER算法输出所述文本块图像的单字检测结果。
可选的,所述基于所述预测box信息对全部所述第一特征图进行合并,以得到第二特征图以及目标box信息,包括:
对全部所述第一特征图进行合并,基于所述预测box信息利用渐进尺度扩张算法确定连通区域,得到所述第二特征图;
计算每个所述连通区域的最小外接矩阵,得到所述目标box信息。
可选的,所述计算每个所述连通区域的最小外接矩阵,得到所述目标box信息之前,还包括:
计算每个所述连通区域的平均像素值,判断所述平均像素值是否大于预设阈值,若否,则将对应的所述连通区域过滤。
可选的,所述初始神经网络模型为基于FPN结构的ResNet18网络模型,其中,所述ResNet18网络模型的Basicblock中的下采样卷积层采用分组卷积运算。
可选的,所述利用所述目标样本对初始神经网络模型进行训练,得到训练后模型,包括:
通过所述初始神经网络模型中多个卷积层提取所述目标样本的特征,得到多个不同尺寸的第三特征图;
基于所述FPN结构对多个所述第三特征图进行特征融合,得到对应的多个尺寸的第四特征图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江诺诺网络科技有限公司,未经浙江诺诺网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011389988.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种市政环卫垃圾桶
- 下一篇:一种尾气脱硫产物调节酸性农作地的设备