[发明专利]一种基于多任务深度学习的票据文本检测方法有效
申请号: | 201911225976.8 | 申请日: | 2019-12-04 |
公开(公告)号: | CN111027443B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 刘桂雄;刘思洋 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/148;G06V30/19;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 陈新胜 |
地址: | 510640 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 深度 学习 票据 文本 检测 方法 | ||
1.一种基于多任务深度学习的票据文本检测方法,其特征在于,所述方法包括:
A构建多层卷积神经网络作为图像特征提取骨干网络,实现票据图像的特征提取;
B在卷积特征图上标注票据文本区域及区域中心线,并对票据文本区域及区域中心线进行训练,实现票据文本信息区域分割与文本中心线检测;
C在票据文本信息区域内通过滑动窗口方法沿着文本中心线前行,实现票据文本信息区域的单字符分割;
D依次对分割后的单个字符进行分类识别,形成完成票据文本信息;
所述步骤B中,以票据文本信息区域分割与文本中心线检测中的参数为输出目标训练网络,获取票据文本信息区域分割、文本区域中心线检测结果;所述票据文本信息区域分割与文本中心线检测中的参数包括中心线像素点坐标(xi,yi)、中心线像素点到文本区域上边界偏移量中心线像素点到文本区域下边界偏移量
所述步骤C中,通过文本中心线上的每个像素(xi,yi),预测每个字符左上、右上、左下、后下四个顶点与中心线像素的距离分别为每个字符与中心线的真实距离为构建损失函数:
其中,αlt、αrt、αld、αrd为各项距离损失修正项,以控制各项距离损失的比重。
2.如权利要求1所述的基于多任务深度学习的票据文本检测方法,其特征在于,所述步骤A中,在特征提取骨干网络的卷积层中引入空洞卷积,即对上一层卷积运算后的特征图进行双线性差值,扩大卷积特征图的分辨率,再进行本卷积层的卷积运算,在保证卷积核参数不变情况下,扩大卷积感受野,以得到更加丰富的票据图像特征。
3.如权利要求1所述的基于多任务深度学习的票据文本检测方法,其特征在于,所述步骤A中,在多卷积层神经网络提取票据图像特征过程中,拼接低层卷积层输出特征向量、高层卷积层输出向量,形成最终的输出特征图,以保留低层卷积层中的边缘、纹理特征,高级卷积层中的语义特征。
4.如权利要求1所述的基于多任务深度学习的票据文本检测方法,其特征在于,所述步骤D中,通过字符图像数据集预训练字符Softmax多分类器,对步骤C中分割得到的单个字符依次进行分类识别,形成完整票据文本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911225976.8/1.html,转载请声明来源钻瓜专利网。