[发明专利]一种基于MSDNet和空间划分的场景文本检测方法在审
申请号: | 202010715197.2 | 申请日: | 2020-07-23 |
公开(公告)号: | CN111950545A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 杨育彬;刘一帆 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06K9/62;G06N3/08 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 msdnet 空间 划分 场景 文本 检测 方法 | ||
1.一种基于MSDNet网络和空间划分的场景文本检测方法,其特征在于,包括如下步骤:
步骤1,构建特征金字塔,确定初始预训练的多尺度密集网络MSDNet的网络模型,用于提供backbone网络;
步骤2:在所述backbone网络的基础上,构建空间划分网络,即构建多个线性分类器,用于对图像中的文本区域进行检测并输出文本区域划分结果;
步骤3:在所述backbone网络的基础上,构建边框回归网络,用于输出边框回归结果;
步骤4:确定所述空间划分网络的学习任务,即所述空间划分网络中每个线性分类器应学习的点和使用的分类loss;
步骤5:结合所述空间划分网络的学习任务和文本区域划分结果,对所述文本区域划分结果进行空间划分集成,获得空间划分集成结果;
步骤6:通过concat-nms算法,根据所述边框回归结果和空间划分集成结果进行第一步后处理,获得第一步后处理结果;
步骤7:通过box-fix算法,根据所述第一步后处理结果进行第二步后处理,获得第二步后处理结果;
步骤8:使用tensorflow深度学习框架构建结合MSDNet和空间划分的检测模型,并对已有的数据进行训练,获得已训练好的检测模型;
步骤9:使用所述已训练好的检测模型进行场景文本检测。
2.根据权利要求1所述的一种基于MSDNet网络和空间划分的场景文本检测方法,其特征在于,所述MSDNet网络模型具备多个输出端口,用于自由地根据硬件条件选择所述输出端口;每个所述输出端口具备不同的模型复杂度,用于平衡对文本检测的检测效率和检测精确度。
3.根据权利要求2所述的一种基于MSDNet网络和空间划分的场景文本检测方法,其特征在于,所述步骤2包括:
构建所述空间划分网络后,生成每个所述线性分类器对应的掩码;每个所述掩码即为线性分类器所要分类的图像区域,所述空间划分网络即空间划分树;
所述空间划分树的第i层对应于所述MSDNet网络模型的第i个输出端口,采用所述MSDNet网络模型的第i个输出端口所对应的线性分类器在第i-1层的划分结果上进一步分类;
所述MSDNet网络模型具备5个输出端口,通过所述5个输出端口所对应的线性分类器对5个输出端口进行空间划分,即通过不停地划分数据集,实现在子空间中的分类,获得高精度的分类结果,即所述文本区域划分结果;
文本区域检测为二分类任务,通过第一个所述输出端口进行文本区域检测,此时,第一个所述输出端口所对应的线性分类器将文本区域划分为二,获得两个区域;再用第二个所述输出端口所对应的线性分类器分别对划分获得的两个区域再分类;依次递推,通过所述5个输出端口所对应的线性分类器,最终将所述文本区域划分为32个区域,作为文本区域划分结果;其中,每个所述二分类任务的输出层采用softmax二分类。
4.根据权利要求3所述的一种基于MSDNet网络和空间划分的场景文本检测方法,其特征在于,所述步骤3中,边框回归结果即通过神经网络学习并计算出图像中文本框内的当前像素点的五个参数,所述五个参数包括当前像素点所在文本标准边框的倾斜度,以及所述当前像素点距离文本标准边框的距离,所述文本标准边框包括用于构成文本标准边框的上、下、左和右四条线段。
5.根据权利要求4所述的一种基于MSDNet网络和空间划分的场景文本检测方法,其特征在于,所述步骤4中的分类loss为带裁剪的平衡交叉熵loss,所述带裁剪的平衡交叉熵loss的公式如下:
其中,yi是真实标签,y′i是预测标签,yi的取值为0或1,y′i的取值范围为[0,1],n是文本样本点的数量,n的取值范围为[0,250000],m是背景样本点的数量,m的取值范围为[0,250000]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010715197.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:临轨深基坑混凝土支撑板底闷拆方法
- 下一篇:一种外滑车顶天窗机械组