[发明专利]一种基于轻量级神经网络模型的文字检测方法及系统在审
申请号: | 202110609381.3 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113298167A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 陈浩文 | 申请(专利权)人: | 北京思特奇信息技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 王维新 |
地址: | 100086 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 轻量级 神经网络 模型 文字 检测 方法 系统 | ||
本发明提供一种基于轻量级神经网络模型的文字检测方法及系统,涉及图像处理和神经网络领域,包括:根据空间信息对文本数据进行分类和边框标注,获得训练数据集;构建轻量级神经网络模型,通过训练数据集训练神经网络模型;通过训练后的神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;针对边框置信度进行置信度筛选,针对文字边框进行非极大值抑制,得到清晰的文本行;对文本行按文字类别进行聚类,得到最终检测结果。本发明实现对图片中的具有空间信息的文字进行分类及检测,进而不需要人工对检测到的文字进行筛选,降低筛选成本。
技术领域
本发明涉及图像处理和神经网络领域,尤其是涉及一种基于轻量级神经网络模型的文字检测方法及系统。
背景技术
在进行网络文字识别的场景下,对于复杂场景的图片文字识别,先对文字的位置进行定位则可以大大提高文字识别的准确率,这个定位的过程称为文字检测,这一直是一个文字热点。此外,目前很多文字检测的需求是在手机端,手机端受限于内存原因对于应用的需求为轻便型,因此研究轻量级神经网络模型也是一大热点。
目前,现有的文字检测方法大多数是对图片中的所有文字进行检测,使得人工筛选成本巨大。
发明内容
针对上述问题,本发明提供了一种基于轻量级神经网络模型的文字检测方法及系统,实现对图片中的具有空间信息的文字进行分类及检测,进而不需要人工对检测到的文字进行筛选,降低筛选成本。
为实现上述目的,本发明提供了一种基于轻量级神经网络模型的文字检测方法,包括:
根据空间信息对文本数据进行分类和边框标注,获得训练数据集;
构建轻量级神经网络模型,通过所述训练数据集训练所述神经网络模型;
通过训练后的所述神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;
针对所述边框置信度进行置信度筛选,针对所述文字边框进行非极大值抑制,得到清晰的文本行;
对所述文本行按所述文字类别进行聚类,得到最终检测结果。
作为本发明的进一步改进,根据空间信息对文本进行分类和边框标注,获得训练数据集;包括:
预设分类标签;
采用标注工具按所述分类标签对文本数据进行分类;
采用四边形对每一行文字进行边框标注。
作为本发明的进一步改进,所述轻量级神经网络模型采用残差网络;
所述神经网络模型结构包括:CBR、RES残差块、POOL最大池化层和Conv卷积层;
所述神经网络模型的输出包括类别分支和坐标分支,所述类别分支输出文字属于各个类别的置信度;所述坐标分支输出文字的坐标信息。
作为本发明的进一步改进,所述通过所述训练数据集对所述神经网络模型进行训练;包括:
依次通过神经网络模型的类别分支输出所述训练数据集中各训练数据中文字的预测类别;
利用多个宽度固定的矩形框拼接得到文字的边框坐标信息;
根据神经网络模型得到的预测类别和训练数据集中的真实类别计算类别损失;
根据神经网络模型得到的边框坐标信息练数据集中的真实边框坐标信息计算回归任务中的回归损失;
根据所述类别损失和所述回归损失更新神经网络模型的参数,得到训练后的所述神经网络模型。
作为本发明的进一步改进,所述通过所述训练数据集训练所述神经网络模型;还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京思特奇信息技术股份有限公司,未经北京思特奇信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110609381.3/2.html,转载请声明来源钻瓜专利网。