[发明专利]样本处理方法、设备及计算机可读存储介质在审
申请号: | 202111348688.9 | 申请日: | 2021-11-15 |
公开(公告)号: | CN114091595A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 孙康康;高洪;周祥生;屠要峰;董修岗 | 申请(专利权)人: | 南京中兴新软件有限责任公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 孙浩 |
地址: | 210012 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 处理 方法 设备 计算机 可读 存储 介质 | ||
本发明提供了一种样本处理方法、设备及计算机可读存储介质,所述方法包括确定未标注目标样本;将所述未标注目标样本输入至分类预测模型,得到分类预测的概率分布数据;根据所述概率分布数据,计算得到稳定性数据;根据所述稳定性数据,得到预标注训练样本;利用所述预标注训练样本和预设的训练集对所述分类预测模型进行训练,直至所述分类预测模型符合预设的停止训练条件;本发明能够有效降低样本标注成本。
技术领域
本发明实施例涉及但不限于数据处理技术领域,尤其涉及一种样本处理方法、设备及计算机可读存储介质。
背景技术
在当前信息爆炸的社会中,无标签数据的数量通常非常庞大,而有标签数据的获取也非常困难、费时和高成本。通过主动学习方法能够有效地选择无标签数据进行标注并训练,以得到性能良好的模型。在现实生活中,对于数据分类也有着广泛应用,而数据分类同样需要利用大量训练数据来获得较好的分类效果。
相关技术的数据分类中,通常采用已标注样本来训练一个初始的分类预测模型,并利用主动学习方法来对未标注样本进行边缘采样,以进一步对采样的样本进行人工标注,再利用人工标注后的样本对上述的分类预测模型进行训练,以得到符合预期的分类预测模型,但由于上述采样方法通常基于多样性和不确定性来进行的,进而导致对样本的标注成本较高。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种样本处理方法、设备及计算机可读存储介质,能够有效降低样本的标注成本。
第一方面,本发明实施例提供了一种样本处理方法,包括:
确定未标注目标样本;
将所述未标注目标样本输入至分类预测模型,得到分类预测的概率分布数据;
根据所述概率分布数据,计算得到稳定性数据;
根据所述稳定性数据,得到预标注训练样本;
利用所述预标注训练样本和预设的训练集对所述分类预测模型进行训练,直至所述分类预测模型符合预设的停止训练条件。
第二方面,本发明实施例还提供了一种样本处理设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的样本处理方法。
第三方面,本发明实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述第一方面所述的样本处理方法。
本发明实施例包括:确定未标注目标样本,将未标注目标样本输入至分类预测模型,得到分类预测的概率分布数据,之后根据概率分布数据,计算得到稳定性数据,再根据稳定性数据,得到预标注训练样本,利用预标注训练样本和预设的训练集对分类预测模型进行训练,直至分类预测模型符合预设的停止训练条件。与相关技术相比,本发明实施例所获得的预标注训练样本的稳定性更强,针对性也更高,能够有效降低样本的标注成本。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明一个实施例提供的样本处理方法的流程示意图;
图2是本发明一个实施例提供的确定未标注目标样本的流程示意图;
图3是本发明一个实施例提供的概率分布数据的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中兴新软件有限责任公司,未经南京中兴新软件有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111348688.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型履带式机器人
- 下一篇:一种单侧极柱长电池及电能存储装置