[发明专利]手写日期样本生成方法及装置有效
申请号: | 202010851946.4 | 申请日: | 2020-08-21 |
公开(公告)号: | CN111898373B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 邓小远;姜璐 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06V30/19;G06N3/0475 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 孙乳笋;任默闻 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 手写 日期 样本 生成 方法 装置 | ||
本申请提供一种手写日期样本生成方法及装置,所述方法包括:将获取的手写日期真实样本输入至预先构建的样本生成模型进行训练,并将训练得到的手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本;对满足识别需求的手写日期中间样本进行筛选及标注,得到手写日期样本。本申请提供的手写日期样本生成方法及装置,利用预先构建的样本生成模型及样本判别模型,能够在仅提供少量手写日期真实样本的情况下,生成满足识别需求的手写日期样本。
技术领域
本申请涉及人工智能技术领域,具体的是一种手写日期样本生成方法及装置。
背景技术
随着人工智能技术的不断发展,手写日期文本识别在金融领域中的应用越发广泛。相比于对印刷体日期的识别,对手写体日期的识别任务难度更大。在建立针对手写体日期的识别模型时,需提供数量庞大且样式丰富的手写体日期样本作为训练基础。
目前,手写体日期样本的提供方式主要有:业务人员提供实际交易过程中客户所书写的日期;组织一些人员进行模拟书写;或采用一些样本生成算法直接生成。然而,它们分别具有如下缺陷:
(1)经业务人员进行样本提供是一种直接有效的方法,但业务人员提供的样本数量有限,达不到日后训练手写日期样本识别模型所适配的训练集样本数据量。此外,业务人员无法及时提供未来时间的手写日期样本,使得日后在训练手写日期样本识别模型时,其训练集样本数据中缺少未来时间的手写日期样本,影响训练效果。
(2)组织一些人员进行模拟书写也是一种有效的方法,但其投入的人力成本非常高,另外书写风格特点的多样化也受组织人数的限制,从而降低了日后在训练手写日期样本识别模型时的模型泛化性能。
(3)在利用现有的样本生成算法直接生成样本时,其生成的样本图片趋于模糊且样式非常单一,不适合手写体日期的识别场景。
因此,针对手写日期的识别场景,急需研发出一种投入成本低,能够按需提供训练样本,同时又能提高手写日期识别模型泛化性能的手写日期样本生成模型。
发明内容
针对现有技术中的问题,本申请提供一种手写日期样本生成方法及装置,利用预先构建的样本生成模型及样本判别模型,能够在仅提供少量手写日期真实样本的情况下,生成满足识别需求的手写日期样本。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种手写日期样本生成方法,包括:
将获取的手写日期真实样本输入至预先构建的样本生成模型进行训练,并将训练得到的手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本;
对满足识别需求的手写日期中间样本进行筛选及标注,得到手写日期样本。
进一步地,预先构建所述样本生成模型的步骤包括:
将所述样本生成模型的向量输入预先获取的WGAN网络模型;
为所述WGAN网络模型载入断点保存及checkpoint功能;
为所述WGAN网络模型载入Attention机制。
进一步地,在所述样本判别模型的第一层引入所述Attention机制。
进一步地,所述的手写日期样本生成方法还包括:
根据训练间隔轮数对预先构建的所述样本生成模型进行断点保存。
进一步地,所述的手写日期样本生成方法还包括:
将所述手写日期样本作为增量训练样本,将已满足识别需求的所述手写日期样本对应的所述样本生成模型作为初始模型进行增量训练,得到改进后的手写日期样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010851946.4/2.html,转载请声明来源钻瓜专利网。