[发明专利]基于维度聚类和多尺度预测的银行卡卡号检测与识别方法在审
申请号: | 201811206675.6 | 申请日: | 2018-10-17 |
公开(公告)号: | CN109460761A | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 柯逍;刘诗勤;牛玉贞 | 申请(专利权)人: | 福州大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市闽*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 银行卡卡号 检测 银行卡数据 多尺度 银行卡 聚类 维度 图像输入 实时性 预测 准确率 标注 图像 分类 保证 | ||
1.一种基于维度聚类和多尺度预测的银行卡卡号检测与识别方法,其特征在于,包括以下步骤:
步骤S1:获取银行卡数据集,并对获取的银行卡数据集进行标注;
步骤S2:构建银行卡卡号定位于识别模型,并根据收集到的银行卡数据集训练银行卡卡号定位与识别模型,得到训练好的银行卡卡号定位与识别模型;
步骤S3:将待检测的银行卡图像输入训练好的银行卡卡号定位与识别模型中,对待检测的银行卡图像进行卡号定位与识别。
2.根据权利要求1所述的基于维度聚类和多尺度预测的银行卡卡号检测与识别方法,其特征在于:所述步骤S1具体为:
步骤S11:通过爬虫技术抓取或摄像头采集的方式,收集银行卡图片,并剔除卡号不清晰的图片;
步骤S12:将采集到的银行卡图片进行标注,标注信息包括银行卡卡号的位置信息和卡号的类别信息。
3.根据权利要求1所述的基于维度聚类和多尺度预测的银行卡卡号检测与识别方法,其特征在于:所述步骤S2具体为:
步骤S21:构建银行卡卡号定位于识别模型,所述银行卡卡号定位与识别模型为将银行卡卡号检测作为一个回归问题在空间上将边界框和与之相关的分类概率划分开来,使单个神经网络能在单张图像的一次评价中预测边界框和分类概率;
步骤S22:为了提高银行卡定位的IoU,在训练集上运行维度聚类方法自动地找到更好的先验边界框,使用一种新的距离度量方法,如下所示:
d(box,centroid)=1-IoU(box,centroid)
其中box代表当前边界框,centroid代表聚类得到的图心,d(box,centroid)表示边界框和聚类图心之间的距离,IoU表示卡号预测框和真实标记框的重合程度,DetectionResult是卡号检测框,GroundTruth为卡号真实标记框;
步骤S23:为了提高小尺寸卡号的检测水平使用特征调优方法,添加一个转移层,将早前层中的高分辨率特征和低分辨率特征连接起来;
步骤S24:使用多尺度训练,每10个训练批次就选择一个新的图像尺寸,从下列32的倍数中选择{320,352,…,608};然后重新调整网络的大小到这个尺寸并继续训练;
步骤S25:使用独立的逻辑回归分类器和多分类标签预测每个边界框中有多少个类别,在训练中我们使用二元交叉熵损失函数来做分类,二元交叉熵损失函数Loss的计算方式为:
其中i为格子的序号,c为所属类别,classes代表所有的类别集合,pi(c)为格子i的类别是c的训练标记值,为格子i的类别是c的预测值;
步骤S26:判断条件t>tmax是否成立,其中tmax为设定的训练步数;若成立则银行卡卡号定位与识别模型训练完成;否则转入步骤S21。
4.根据权利要求3所述的基于维度聚类和多尺度预测的银行卡卡号检测与识别方法,其特征在于:所述位置信息包括卡号外接矩形框的坐标,类别信息包括卡号所代表的数字。
5.根据权利要求1所述的基于维度聚类和多尺度预测的银行卡卡号检测与识别方法,其特征在于:所述步骤S3具体为:
步骤S31:将输入的待检测银行卡图像尺寸调节至416×416;
步骤S32:将输入图像送入训练好的银行卡卡号定位与识别模型中提取特征,得到待检测图像的银行卡卡号相关特征;
步骤S33:使用多尺度特征检测在网络的3个位置对三种大小的特征图应用1×1的检测核,检测核的大小为1×1×(B×(4+1+C));
其中,B代表特征图上一个格子可以预测的边界框数,4代表边界框的中心坐标(tx,ty),边界框的宽高tw,th,1代表物体存在的分数,C代表类别的数量;经过检测核产生的特征图和之前的特征图有着相同的宽、高,深度变为B×(4+1+C);
步骤S34:模型为每个边界框预测四个坐标(tx,ty,tw,th),这个边界框中心所在格子的左上角相对于图像左上角的横向偏移是cx、纵向偏移是cy,边界框的先验宽、高为pw、ph,则预测边界框的公式为:
bx=σ(tx)+cx
by=σ(ty)+cy
其中bx、by为预测边界框中心点的横、纵坐标,bw、bh为预测边界框的宽、高;σ定义为sigmoid激活函数,将函数值约束到[0,1],用来预测边界框中心点对于该格子中心的偏移程度;
步骤S35:使用独立的逻辑分类器预测边界框中的数字字符的类别,得到最终的银行卡卡号位置信息与类别信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811206675.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便携式人工视觉智能阅读器
- 下一篇:一种基于图像识别的答题卡评分方法