[发明专利]字符检测模型的生成、字符检测方法、装置、设备及介质有效

申请号：	201910027515.3	申请日：	2019-01-11
公开（公告）号：	CN109766879B	公开（公告）日：	2023-06-30
发明（设计）人：	卢永晨	申请（专利权）人：	北京字节跳动网络技术有限公司
主分类号：	G06V30/14	分类号：	G06V30/14;G06V30/19
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	100080 北京市石景山区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	字符检测模型生成方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开实施例公开了一种字符检测模型的生成、字符检测方法、装置、设备及介质。该字符检测模型的生成方法包括：根据至少一个字符图像和空白背景图片构造至少一张待识别文字图片；获取所述至少一张待识别文字图片中各字符图像的定位信息；将所述待识别文字图片以及所述待识别文字图片中各字符图像的定位信息对应作为一组字符检测训练样本数据；采用至少一组字符检测训练样本数据，对标准检测模型进行训练，生成字符检测模型。通过上述技术方案，可以为训练字符检测模型快速且大量地提供字符检测训练样本，解决了通过人工标注来生成字符检测训练样本(尤其是针对小语种文字)时存在的效率低且成本高的问题。

技术领域

本公开实施例涉及数据技术，尤其涉及一种字符检测模型的生成、字符检测方法、装置、设备及介质。

背景技术

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

在OCR识别过程中，首先要利用字符检测模型检测待识别图片中各个字符的位置信息，进而获取与各个字符对应的字符图像。训练字符检测模型需要大量的字符检测训练样本数据，其中，每组字符检测训练样本数据至少包括待识别图片和待识别图片中各个字符图像的位置信息。字符检测训练样本数据，尤其是与小语种文字(例如是印地语)相关的字符检测训练样本数据，通常是基于人工对待识别图片中的各个字符进行标注后生成的，但是人工标注的效率比较低，人工成本却比较高。

发明内容

本公开实施例提供一种字符检测模型的生成、字符检测方法、装置、设备及介质，以实现对图片中各字符的自动标注，替代人工的字符标注工作，提高字符标注的效率，进而为训练字符检测模型快速生成大量的字符检测训练样本数据。

第一方面，本公开实施例提供了一种字符检测模型的生成方法，该方法包括：

根据至少一个字符图像和空白背景图片构造至少一张待识别文字图片；

获取所述至少一张待识别文字图片中各字符图像的定位信息；

将所述待识别文字图片以及所述待识别文字图片中各字符图像的定位信息对应作为一组字符检测训练样本数据；

采用至少一组字符检测训练样本数据，对标准检测模型进行训练，生成字符检测模型。

进一步的，所述根据至少一个字符图像和空白背景图片构造至少一张待识别文字图片，包括：

将至少一个字符图像拼接成至少一个字符行图像；

根据所述至少一个字符行图像和空白背景图片构造至少一张待识别文字图片。

进一步的，所述根据所述至少一个字符行图像和空白背景图片构造至少一张待识别文字图片，包括：

将所述至少一个字符行图像按照预设定位信息添加至所述空白背景图片上，构造出至少一张待识别文字图片。