[发明专利]一种文本标注生成方法、装置、电子设备及存储介质在审

专利信息
申请号: 202110232356.8 申请日: 2021-03-02
公开(公告)号: CN112766268A 公开(公告)日: 2021-05-07
发明(设计)人: 杨帆;车成富;杨兆斌 申请(专利权)人: 阳光财产保险股份有限公司
主分类号: G06K9/32 分类号: G06K9/32;G06K9/46;G06F40/117;G06F40/186
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 余菲
地址: 101100 北京市通*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 标注 生成 方法 装置 电子设备 存储 介质
【说明书】:

本申请实施例提供一种文本标注生成方法、装置、电子设备及存储介质,涉及文本图像处理技术领域。该文本标注生成方法包括:生成标注模板图像,并在所述标注模板图像上标注文本区域;生成字符串样本集合,所述字符串样本集合包括至少一个字符串;在所述文本区域上填充所述字符串,生成第一标注图像;将所述第一标注图像和蒙版模板图像、拍摄背景模板图像进行图层合并,获得合并图层;裁剪所述合并图层,并生成第二标注图像。该文本标注生成方法可以实现降低标注成本、提高标注效率和特征分布均匀的技术效果。

技术领域

本申请涉及文本图像处理技术领域,具体而言,涉及一种文本标注生成方法、装置、电子设备及存储介质。

背景技术

目前,随着互联网技术的快速发展,越来越多的金融业务都实现了线上化,智能化,从而产生了大量的相关影像文件,包括各类证件类影像,应用OCR(Optical CharacterRecognition,光学字符识别)技术对这些证件影像文字信息的检测和识别,转化为结构化数据,用于自动信息录入,自动信息核验,数据分析等,能大大提高效率,提升用户体验,还可以利用数据创造价值。

现有的基于深度学习的OCR技术体系中,一般分为文本检测和文本识别两个步骤,其中文本检测大多需要特定训练样本,效果才会好,而样本来源主要是人工收集并标注,存在人工标注慢,成本高;真实样本数量不足;真实样本特征分布不均等问题。

发明内容

本申请实施例的目的在于提供一种文本标注生成方法、装置、电子设备及存储介质,该文本标注生成方法可以实现降低标注成本、提高标注效率和特征分布均匀的技术效果。

第一方面,本申请实施例提供了一种文本标注生成方法,包括:

生成标注模板图像,并在所述标注模板图像上标注文本区域;

生成字符串样本集合,所述字符串样本集合包括至少一个字符串;

在所述文本区域上填充所述字符串,生成第一标注图像;

将所述第一标注图像和蒙版模板图像、拍摄背景模板图像进行图层合并,获得合并图层;

裁剪所述合并图层,并生成第二标注图像。

在上述实现过程中,该文本标注生成方法通过在标注模板图像上进行文本区域的标注,从字符串样本集合中选取字符串,根据文本区域的标注,进行字符串的填充,生成第一标注图像,将所述第一标注图像和蒙版模板图像、拍摄背景模板图像进行图层合并、裁剪,生成第二标注图像;从而,实现生成文本检测所需的标注数据集样本,可以替代或补充真实样本进行模型训练,进而解决真实样本标注成本高、数量不足、特征分布不均等问题,实现降低标注成本、提高标注效率和特征分布均匀的技术效果。

进一步地,在所述将所述第一标注图像和蒙版模板图像、拍摄背景模板图像进行图层合并,获得合并图层的步骤之前,所述方法还包括:

生成所述蒙版模板图像和所述拍摄背景模板图像,所述蒙版模板图像与所述标注模板图像的大小相同,所述蒙版模板图像包括多角度光照、腐蚀痕迹、老旧阴影中的一种或多种图层,所述拍摄背景模板图像的长度及宽度均大于所述标注模板图像,所述拍摄背景模板图像包括拍摄背景图层。

在上述实现过程中,生成蒙版模板图像,可以是根据标注模板图像,制作预设数量个与标注蒙版图像相同大小、半透明、且透明度可调的蒙版模板图像,所述蒙版模板图像包含不同角度光照、腐蚀痕迹、老旧阴影等特殊图层;生成拍摄背景模板图像,可以是根据标注模板图像,制作预设数量个长度/宽度均大于标注模板图像、不透明、预设大小的拍摄背景模板图像,所述拍摄背景模板图像包含各种拍摄背景图层。

进一步地,所述文本区域包括至少一个内容字段,每个内容字段对应一个标注信息,所述标注信息包括所述内容字段在所述标注模板图像上的位置坐标和字段类型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阳光财产保险股份有限公司,未经阳光财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110232356.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top