[发明专利]一种基于轻量级神经网络模型的文字检测方法及系统在审
申请号: | 202110609381.3 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113298167A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 陈浩文 | 申请(专利权)人: | 北京思特奇信息技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 王维新 |
地址: | 100086 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 轻量级 神经网络 模型 文字 检测 方法 系统 | ||
1.一种基于轻量级神经网络模型的文字检测方法,其特征在于,包括:
根据空间信息对文本数据进行分类和边框标注,获得训练数据集;
构建轻量级神经网络模型,通过所述训练数据集训练所述神经网络模型;
通过训练后的所述神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;
针对所述边框置信度进行置信度筛选,针对所述文字边框进行非极大值抑制,得到清晰的文本行;
对所述文本行按所述文字类别进行聚类,得到最终检测结果。
2.根据权利要求1所述的文字检测方法,其特征在于:根据空间信息对文本进行分类和边框标注,获得训练数据集;包括:
预设分类标签;
采用标注工具按所述分类标签对文本数据进行分类;
采用四边形对每一行文字进行边框标注。
3.根据权利要求1所述的文字检测方法,其特征在于:所述轻量级神经网络模型采用残差网络;
所述神经网络模型结构包括:CBR、RES残差块、POOL最大池化层和Conv卷积层;
所述神经网络模型的输出包括类别分支和坐标分支,所述类别分支输出文字属于各个类别的置信度;所述坐标分支输出文字的坐标信息。
4.根据权利要求1所述的文字检测方法,其特征在于,所述通过所述训练数据集对所述神经网络模型进行训练;包括:
依次通过神经网络模型的类别分支输出所述训练数据集中各训练数据中文字的预测类别;
利用多个宽度固定的矩形框拼接得到文字的边框坐标信息;
根据神经网络模型得到的预测类别和训练数据集中的真实类别计算类别损失;
根据神经网络模型得到的边框坐标信息练数据集中的真实边框坐标信息计算回归任务中的回归损失;
根据所述类别损失和所述回归损失更新神经网络模型的参数,得到训练后的所述神经网络模型。
5.根据权利要求4所述的文字检测方法,其特征在于,分别利用交叉熵损失及均方误差计算所述类别损失和回归损失;
在计算所述类别损失和所述回归损失时,加入l2正则化。
6.根据权利要求1所述的文字检测方法,其特征在于,所述通过所述训练数据集训练所述神经网络模型;还包括:
先将所述训练数据集进行数据增强,增加训练数据的样本数;
所述数据增强的方式包括裁剪图片、改变图片某通道亮度、改变图片三个通道顺序以及利用无关的图片与训练数据集进行融合。
7.根据权利要求1所述的文字检测方法,其特征在于:所述通过训练后的所述神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;包括:
识别所述待测文本中各部分文字的类别;
采用不同颜色的竖状矩形框对不同类别的文字进行框选;
输出框选后的所述待测文本图样及各所述竖状矩形框的置信度。
8.根据权利要求1所述的文字检测方法,其特征在于:所述针对所述边框置信度进行置信度筛选,针对所述文字边框进行非极大值抑制,得到清晰的文本行;具体包括:
针对所述边框置信度进行置信度筛选,得到置信度最高的边框,输出筛选后的所述待测文本图样;
针对所述文字边框进行非极大值抑制,去除重叠度较高的边框,得到不重叠的清洗文本行。
9.根据权利要求1所述的文字检测方法,其特征在于,对所述文本行按所述文字类别进行聚类包括:
将类别相同且距离相近的边框聚为一行;
对同一类别中,文字间隔较大但左右边界固定的边框,再次进行左右边界聚类。
10.一种用于实现权利要求1~9任一项所述的文字检测方法的系统,其特征在于,包括:训练数据获取模块、模型训练模块、文本预测模块、后处理模块;
所述训练数据获取模块,用于:
根据空间信息对文本数据进行分类和边框标注,获得训练数据集;
所述模型训练模块,用于:
构建轻量级神经网络模型,通过所述训练数据集训练所述神经网络模型;
所述文本预测模块,用于:
通过训练后的所述神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;
所述后处理模块,用于:
针对所述边框置信度进行置信度筛选,针对所述文字边框进行非极大值抑制,得到清晰的文本行;
对所述文本行按所述文字类别进行聚类,得到最终检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京思特奇信息技术股份有限公司,未经北京思特奇信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110609381.3/1.html,转载请声明来源钻瓜专利网。