[发明专利]字符检测模型的生成、字符检测方法、装置、设备及介质有效
申请号: | 201910027515.3 | 申请日: | 2019-01-11 |
公开(公告)号: | CN109766879B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 卢永晨 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06V30/19 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100080 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符 检测 模型 生成 方法 装置 设备 介质 | ||
本公开实施例公开了一种字符检测模型的生成、字符检测方法、装置、设备及介质。该字符检测模型的生成方法包括:根据至少一个字符图像和空白背景图片构造至少一张待识别文字图片;获取所述至少一张待识别文字图片中各字符图像的定位信息;将所述待识别文字图片以及所述待识别文字图片中各字符图像的定位信息对应作为一组字符检测训练样本数据;采用至少一组字符检测训练样本数据,对标准检测模型进行训练,生成字符检测模型。通过上述技术方案,可以为训练字符检测模型快速且大量地提供字符检测训练样本,解决了通过人工标注来生成字符检测训练样本(尤其是针对小语种文字)时存在的效率低且成本高的问题。
技术领域
本公开实施例涉及数据技术,尤其涉及一种字符检测模型的生成、字符检测方法、装置、设备及介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
在OCR识别过程中,首先要利用字符检测模型检测待识别图片中各个字符的位置信息,进而获取与各个字符对应的字符图像。训练字符检测模型需要大量的字符检测训练样本数据,其中,每组字符检测训练样本数据至少包括待识别图片和待识别图片中各个字符图像的位置信息。字符检测训练样本数据,尤其是与小语种文字(例如是印地语)相关的字符检测训练样本数据,通常是基于人工对待识别图片中的各个字符进行标注后生成的,但是人工标注的效率比较低,人工成本却比较高。
发明内容
本公开实施例提供一种字符检测模型的生成、字符检测方法、装置、设备及介质,以实现对图片中各字符的自动标注,替代人工的字符标注工作,提高字符标注的效率,进而为训练字符检测模型快速生成大量的字符检测训练样本数据。
第一方面,本公开实施例提供了一种字符检测模型的生成方法,该方法包括:
根据至少一个字符图像和空白背景图片构造至少一张待识别文字图片;
获取所述至少一张待识别文字图片中各字符图像的定位信息;
将所述待识别文字图片以及所述待识别文字图片中各字符图像的定位信息对应作为一组字符检测训练样本数据;
采用至少一组字符检测训练样本数据,对标准检测模型进行训练,生成字符检测模型。
进一步的,所述根据至少一个字符图像和空白背景图片构造至少一张待识别文字图片,包括:
将至少一个字符图像拼接成至少一个字符行图像;
根据所述至少一个字符行图像和空白背景图片构造至少一张待识别文字图片。
进一步的,所述根据所述至少一个字符行图像和空白背景图片构造至少一张待识别文字图片,包括:
将所述至少一个字符行图像按照预设定位信息添加至所述空白背景图片上,构造出至少一张待识别文字图片。
进一步的,所述定位信息包括位置信息和旋转角度信息。
进一步的,在所述将所述待识别文字图片以及所述待识别文字图片中各字符图像的定位信息对应作为一组字符检测训练样本数据之前,还包括:
对所述待识别文字图片添加噪声。
进一步的,所述标准检测模型为原始机器学习模型;
所述采用至少一组字符检测训练样本数据,对标准检测模型进行训练,生成字符检测模型,包括:
采用至少一组字符检测训练样本数据以及标准字符检测训练样本集,对所述原始机器学习模型进行训练,生成字符检测模型。
进一步的,所述字符包括印地语字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910027515.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车道线检测的方法和设备
- 下一篇:手持式输入系统