[发明专利]一种改进的平行四边形候选框的文本检测方法有效
申请号: | 201910857582.8 | 申请日: | 2019-09-09 |
公开(公告)号: | CN110674802B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 李宏亮;陶聚;王强;杨健榜;王晓鹏;罗鹏飞 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06V30/19;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 邹裕蓉 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 平行四边形 候选 文本 检测 方法 | ||
1.一种改进的平行四边形候选框的文本检测方法,其特征在于,包括以下步骤:
1)训练步骤:
1-1)得到样本图像的预测特征谱;
1-2)将预测特征谱分别输入回归特征谱层、分类特征谱层以及前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标;回归特征谱为图像特征谱、分类特征谱为分类置信度;
所述偏移学习模块用于输出预测特征谱与候选框在Y轴方向的偏移量至PriorBox层;
PriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框;
PriorBox层计算平行四边形候选框的四个顶点坐标的方法为:
x1=xcenter-bb_width/2
y1=ycenter-bb_height(1-dy)/2
x2=xcenter+bb_width/2
y2=ycenter-bb_height(1+dy)/2
x3=xcenter-bb_width/2
y3=ycenter+bb_width(1+dy)/2
x4=xcenter+bb_width/2
y4=ycenter+bb_height(1-dy)/2
其中,(xq,yq),q=1,2,3,4分别是平行四边形候选框的左上、右上、左下、右下四个顶点,xcenter、ycenter分别为预测特征谱的中心的横、纵坐标,bb_width、bb_height分别为PriorBox层中预设的框宽、框高,dy为偏移学习模块输出的偏移量;
1-3)将回归特征谱、分类特征谱以及候选框坐标输入至损失层进行回归损失与分类损失计算,再根据损失调整网络参数,返回步骤1-1)重复训练步骤直至达到训练结束条件;
2)测试步骤:
2-1)得到测试图像的预测特征谱;
2-2)将预测特征谱分别输入回归特征谱层、分类特征谱层、前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标;前置偏移学习模块通过深度卷积神经网络对水平的候选框无监督的学习一个Y轴方向的偏移量,再将该偏移量通过激活函数操作将其归一化到(-1,1)之间,将归一化后的偏移量增加到候选框的垂直方向上,形成最终的平行四边形候选框;
2-3)将回归特征谱、分类特征谱以及PriorBox层同时输入对应输出层TextDetectionOutput层得到及检测框的位置坐标以及测试图像的分类结果。
2.如权利要求1所述方法,其特征在于,偏移学习模块对输入的预测特征谱依次经卷积层conv1、卷积层conv1_1、卷积层conv1_2、全局池化和激活函数操作得到输出值conv2_active,并将输出值conv2_active赋值给偏移量;
卷积层conv1的卷积核尺寸为3x3,步长为1x1,填充为1x1,通道数为矩形候选框类型的两倍;
卷积层conv1_1和卷积层conv1_2的卷积核尺寸为1x1,步长为1x1,填充为0x0,通道数与卷积层conv1的通道数相同;
全局池化输出的特征谱尺寸为1x1x3;
激活函数为tanh函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910857582.8/1.html,转载请声明来源钻瓜专利网。