[发明专利]票证识别训练样本合成方法和计算机存储介质有效
申请号: | 201910435628.7 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110163285B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 田强;邓冠群;李树凯 | 申请(专利权)人: | 阳光保险集团股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 崔振 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 票证 识别 训练 样本 合成 方法 计算机 存储 介质 | ||
本发明公开了一种票证识别训练样本合成方法和计算机存储介质,该方法包括:按照预设规则从语料库中进行字符采样,得到字符采样集合,并从所述字符采样集合中读取字符生成具有预定长度的样本字符串,将多个所述样本字符串组成样本字符串集合;对各样本字符串进行文字掩码预处理并生成对应的前景文字掩码图像;将各前景文字掩码图像与对应选取的票证背景图像进行二次图像融合,以得到用于票证识别的合成训练样本集合。根据本发明的技术方案,可以实现人工合成票证文本识别所需的训练样本,以用于替代真实样本来进行模型训练,进而还可以解决真实样本的样本数量不可控等难题。
技术领域
本发明涉及文本识别技术领域,尤其涉及一种票证识别训练样本合成方法和计算机存储介质。
背景技术
随着智能手机技术的发展,用户在办理金融保险业务时使用手机拍摄各类票据证照(如房产证等)上传作为业务凭证越来越流行,通过OCR技术(Optical CharacterRecognition,光学字符识别)识别所拍摄图片中的文字信息以用于信息录入或信息审核比对,不仅可以提高效率,降低成本,还可提升用户体验。
现有的基于深度学习的OCR技术体系中,一般分为文本检测和文本识别两个步骤,其中文本识别多采用文本串整体识别,并基于真实样本训练识别模型。然而,在实际运用过程中,基于真实样本训练的方法却存在以下主要问题:(1)由于业务量等原因,导致真实训练样本的数量难以控制;(2)真实样本中的字符覆盖往往不均衡,影响识别模型的整体性能等。
发明内容
鉴于上述问题,本发明提出一种票证识别训练样本合成方法和计算机存储介质,通过生成合成训练样本以替代真实样本用于模型训练,可以解决现有真实样本的数量不可控和字符不均衡等问题。
本发明实施例提出一种票证识别训练样本合成方法,包括:
按照预设规则从语料库中进行字符采样,得到字符采样集合,并从所述字符采样集合中读取字符生成具有预定长度的样本字符串,将多个所述样本字符串组成样本字符串集合;
对各样本字符串进行文字掩码预处理并生成对应的前景文字掩码图像;
将各前景文字掩码图像与对应选取的票证背景图像进行二次图像融合,得到用于票证识别的合成训练样本集合。
进一步地,所述“按照预设规则从语料库中进行字符采样,得到字符采样集合,并从所述字符采样集合中读取字符生成具有预定长度的样本字符串,将多个所述样本字符串组成样本字符串集合”包括:
从语料库中读取预选字符集中所包含的字符,若当前读取的字符在字符采样集合中的字频计数小于或等于预设最高字频,则将所述当前读取的字符加入到所述字符采样集合中;
从所述字符采样集合中依次读取字符以生成具有预定长度的字符串,将生成的多个所述样本字符串加入到样本字符串集合;
判断所述样本字符串的数量是否达到预设样本量,并在达到所述预设样本量时停止字符采样。
进一步地,在上述的票证识别训练样本合成方法中,还包括:
停止所述字符采样后,判断所述预选字符集中的每一字符在所述字符采样集合中的字频计数是否小于预设最低字频;
若是,则将小于所述预设最低字频的当前字符补充到字符补充集合中,以使所述当前字符在所述字符补充集合中的字频计数达到所述预设最低字频;
从所述字符补充集合中依次读取字符并生成具有所述预定长度的字符串,将生成的样本字符串加入到所述样本字符串集合中。
进一步地,所述“将所述前景文字掩码图像与预选的票证背景图像进行二次图像融合”包括:
根据第一预设融合规则将所述前景文字掩码图像与所述票证背景图像进行融合,以获取第一融合图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阳光保险集团股份有限公司,未经阳光保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910435628.7/2.html,转载请声明来源钻瓜专利网。