[发明专利]文本识别网络的训练方法和光学字符识别方法在审
申请号: | 201910431918.4 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110135423A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 吴雨培;黄耀 | 申请(专利权)人: | 北京阿丘机器人科技有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 徐彦圣 |
地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 候选框 文本识别 光学字符识别 训练图像 特征图 剔除 训练样本集 特征提取 文本内容 文本位置 训练文本 训练效率 训练样本 网络 标注框 像素点 正确率 重复率 预设 标注 保证 | ||
本发明提供了一种文本识别网络的训练方法和光学字符识别方法,涉及文本识别的技术领域,该方法包括:对训练样本集进行特征提取,得到多个特征图;训练样本集中包括标注文本内容和文本位置的标注框的训练图像;将特征图中的每个像素点为中心,生成候选框集;候选框集包括至少一个候选框;剔除超过训练图像大小对应的第一类候选框,和超过预设重复率对应的第二类候选框;根据剔除后的候选框集,训练文本识别网络。本发明可以在保证正确率的情况下提高训练效率。
技术领域
本发明涉及文本识别技术领域,尤其是涉及一种文本识别网络的训练方法和光学字符识别方法。
背景技术
光学字符识别是指通过光学设备例如相机或扫描仪将图像中的文本内容识别并输入到计算机中,避免了人为重复低效的劳动,极大提高了工作效率,在工业和生活中有着广泛的应用。目前社会生活中,光学字符识别对图像的识别主要依赖于传统的算法,在传统训练过程中,首先提取图像特征图,再利用特征图进行训练卷积神经网络。然而,从图像中提取出来的特征图包括多个可能内容重复的目标文本的特征,和多个可能内容重复的背景的特征,还包含有目标和背景掺杂的特征,在训练时对于内容重复的或者具有掺杂的特征训练出来的效果并不好,造成训练效率比较低。
发明内容
有鉴于此,本发明的目的在于提供文本识别网络的训练方法和光学字符识别方法,可以提高识别结果的正确率。
第一方面,本发明实施例提供了一种文本识别网络的训练方法,包括:
对训练样本集进行特征提取,得到多个特征图;所述训练样本集中包括标注文本内容和文本位置的标注框的训练图像;
将特征图中的每个像素点为中心,生成候选框集;所述候选框集包括至少一个候选框;
剔除超过所述训练图像大小对应的第一类候选框,和超过预设重复率对应的第二类候选框;
根据剔除后的候选框集,训练文本识别网络。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述剔除超过所述训练图像大小对应的第一类候选框的步骤,包括:
将每一个候选框与候选框对应的训练图像的标注框进行重合度计算;
将重合度计算结果在第一阈值和第二阈值之间的候选框作为第一类候选框进行剔除处理。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述剔除超过预设重复率对应的第二类候选框的步骤,包括:
计算所述候选框的位置信息;
根据位置信息,确定每一个候选框的置信度;
对多个置信度进行排序,得到置信度队列;
从候选框中提取出置信度的数值最高对应的参照候选框;
将所述参照候选框与所述候选框进行重叠面积计算;
确定超过预设重复率对应的候选框作为第二类候选框进行剔除处理。结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述计算所述候选框的位置信息的步骤,包括:
将重合度计算结果大于第一阈值对应的候选框作为前景框;
将前景框与所述前景框对应的标注框进行坐标回归计算,得到偏移量;
根据所述偏移量,计算所述候选框的位置信息。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述对训练样本集进行特征提取,得到多个特征图的步骤,包括:
通过神经网络模型对训练样本集进行特征提取,得到多个特征图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京阿丘机器人科技有限公司,未经北京阿丘机器人科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910431918.4/2.html,转载请声明来源钻瓜专利网。