[发明专利]模拟样本生成方法、装置、计算机设备和存储介质在审
申请号: | 201911029473.3 | 申请日: | 2019-10-28 |
公开(公告)号: | CN110781965A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 周康明;彭山珍 | 申请(专利权)人: | 上海眼控科技股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 44224 广州华进联合专利商标代理有限公司 | 代理人: | 李姣姣 |
地址: | 200030 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模拟样本 目标样本 模拟目标 判别结果 文本类别 预设 计算机设备 存储介质 人工标注 生成模型 输出性能 训练样本 用户要求 判别器 样本 费力 检测 申请 | ||
本申请涉及一种模拟样本生成方法、装置、计算机设备和存储介质。包括:获取待模拟样本集;对于待模拟样本集中的每一待模拟样本,将待模拟样本输入预设的模拟样本生成模型,检测待模拟样本的文本类别;根据文本类别,得到目标样本和初始模拟样本;其中,目标样本为待模拟样本的模拟目标,初始模拟样本为以目标样本为模拟目标得到的模拟样本;将初始模拟样本输入预设判别器,得到判别结果;根据判别结果,得到模拟样本。从而可以避免人工标注训练样本费时又费力的现象,还能将得到的大量符合用户要求的模拟样本作为训练数样本对相关模型进行训练,提高模型的输出性能。
技术领域
本申请涉及多媒体处理技术领域,特别涉及一种模拟样本生成方法、装置、计算机设备和存储介质。
背景技术
随着互联网大数据的发展,为加快各项业务的办理流程,对各种证件或凭证进行电子识别和电子化处理得到了越来越广泛的应用。传统技术中,通常采用人工对各种证件或凭证中的标签进行标注,然后利用人工标注的样本对相应的模型进行训练,以获得相应证件或凭证的信息。
然而,采用人工进行标注得到训练样本的方法既耗时又费力,往往还会导致采用相应训练样本训练出来的模型在已有类别的样本上测试性能较好,而在未知类别的样本上测试性能明显降低。
发明内容
基于此,有必要针对上述技术问题,提供一种模拟样本生成方法、装置、计算机设备和存储介质。
一种模拟样本生成方法,所述方法包括:
获取待模拟样本集;
对于所述待模拟样本集中的每一待模拟样本,将所述待模拟样本输入预设的模拟样本生成模型,检测所述待模拟样本的文本类别;
根据所述文本类别,得到目标样本和初始模拟样本;其中,所述目标样本为所述待模拟样本的模拟目标,所述初始模拟样本为以所述目标样本为模拟目标得到的模拟样本;
将所述初始模拟样本输入预设判别器,得到判别结果;
根据所述判别结果,得到模拟样本。
在其中一个实施例中,所述根据所述文本类别,得到目标样本和初始模拟样本,包括:
根据所述文本类别,从预设的样本列表中获取所述目标样本;
根据所述待模拟样本和所述目标样本,输出所述初始模拟样本。
在其中一个实施例中,所述根据所述文本类别,从预设的样本列表中获取所述目标样本,包括:
根据所述文本类别,从所述目标样本列表中获取与所述文本类别对应的目标样本。
在其中一个实施例中,所述将所述初始模拟样本输入预设判别器,得到判别结果,包括:
将所述初始模拟样本输入所述预设判别器,判别所述初始模拟样本是否为真样本,并得到所述判别结果。
在其中一个实施例中,所述根据所述判别结果,得到模拟样本,包括:
若所述判别结果在预设邻域内,则将与所述判别结果对应的初始模拟样本确定为所述模拟样本;
若所述判别结果不在所述预设邻域内,则将所述判别结果输入所述预设的模拟样本生成模型,并根据所述判别结果返回执行所述根据所述文本类别,得到目标样本和初始模拟样本的步骤,直到所述判别结果在所述预设邻域内,则将与所述判别结果对应的初始模拟样本确定为所述模拟样本。
在其中一个实施例中,所述将所述目标样本和所述初始模拟样本输入预设判别器,得到判别结果之前,包括:
根据所述目标样本、所述初始模拟样本和预设初始判别器,得到所述预设判别器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海眼控科技股份有限公司,未经上海眼控科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911029473.3/2.html,转载请声明来源钻瓜专利网。