[发明专利]字符识别模型的生成方法、装置、设备及介质有效

申请号：	201910027547.3	申请日：	2019-01-11
公开（公告）号：	CN109753968B	公开（公告）日：	2020-12-15
发明（设计）人：	卢永晨	申请（专利权）人：	北京字节跳动网络技术有限公司
主分类号：	G06K9/34	分类号：	G06K9/34;G06K9/62
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	100080 北京市石景山区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	字符识别模型生成方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开实施例公开了一种字符识别模型的生成方法、装置、设备及介质。该方法包括：根据与语料信息对应的Unicode获取与语料信息中各字符对应的标准字符图像；如果确定语料信息中存在变体字符，则对与变体字符对应的标准字符图像进行修正；根据语料信息内容将各标准字符图像按顺序合并为一张字符图片；将字符图片和与语料信息对应的文本对应作为一组字符识别训练样本数据；采用至少一组字符识别训练样本数据对标准识别模型进行训练，生成字符识别模型。上述方法为训练字符识别模型快速提供大量且正确率高的针对小语种语言的训练样本，以使字符识别模型有效地识别对应的小语种字符，解决了人工构造训练样本时存在的效率低且成本高的问题。

技术领域

本公开实施例涉及数据技术，尤其涉及一种字符识别模型的生成方法、装置、设备及介质。

背景技术

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

为了提高OCR识别模型对小语种文字(例如是印地语)的识别正确率，需要大量的针对小语种文字的字符识别训练样本数据对OCR识别模型进行训练，进而如何得到大量的字符识别训练样本数据便变得至关重要。针对小语种文字的字符识别训练样本数据往往是通过人工手动构造的，例如，将图片中的小语种文字手动敲成TXT文本，然后将其对应作为一种字符识别训练样本数据。由于懂小语种的人比较少，因此能够胜任这项相对枯燥工作的人就更少了，而且，人工构造字符识别训练样本数据的效率比较低，人工成本却比较高。

发明内容

本公开实施例提供一种字符识别模型的生成方法、装置、设备及介质，目的在于为生成字符识别模型自动且快速地构造大量针对小语种文字的字符识别训练样本数据，替代人工低效的样本数据构造工作，进而使生成的字符识别模型能够有效识别对应的小语种文字。

第一方面，本公开实施例提供了一种字符识别模型的生成方法，该方法包括：

根据与语料信息对应的Unicode获取与所述语料信息中各字符对应的标准字符图像；

如果确定所述语料信息中存在变体字符，则对与所述变体字符对应的标准字符图像进行修正；

根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片；

将所述字符图片和与所述语料信息对应的文本对应作为一组字符识别训练样本数据；

采用至少一组字符识别训练样本数据，对标准识别模型进行训练，生成字符识别模型。

进一步的，所述对与所述变体字符对应的标准字符图像进行修正，包括：

根据所述变体字符的变体规则确定与所述变体字符对应的原始标准字符图像；

重新获取与所述变体字符匹配的变体字符图像；

将所述变体字符图像作为与所述变体字符对应的新的标准字符图像对原始标准字符图像进行替换。