[发明专利]扩充样本方法、终端、装置及可读存储介质在审

申请号：	201910559143.9	申请日：	2019-06-21
公开（公告）号：	CN110321945A	公开（公告）日：	2019-10-11
发明（设计）人：	桑晓临	申请（专利权）人：	深圳前海微众银行股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	胡海国
地址：	518052 广东省深圳市南山***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	样本最优分类模型分类模型预设参数标签迭代可读存储介质预设校对差错率终端预设关系预设规则参数集再利用多轮基尼筛选
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种扩充样本方法，包括以下步骤：基于迭代次数与参数集的预设关系表，获取当前迭代次数对应的预设参数集，而后分别基于预设样本、预设样本对应的标签、各组预设参数训练初始分类模型，得到各组预设参数对应的分类模型，接下来基于各个分类模型的基尼GINI系数，确定最优分类模型，最后基于预设规则、待校对样本以及所述最优分类模型，在所述待校对样本中确定新增样本。本发明还公开了一种装置、终端及可读存储介质。通过多轮迭代并利用GINI系数筛选出最优分类模型，再利用最优分类模型为无标签的样本进行标签补全，在实现样本扩充的同时降低了标签补全的差错率，提升了样本扩充的效率。

技术领域

本发明涉及机器学习技术领域，尤其涉及一种扩充样本方法、终端、装置及可读存储介质。

背景技术

随着金融科技(Fintech)，尤其是互联网科技金融的不断发展，越来越多的技术应用到金融领域。

目前，对于有标签的样本在整体分析样本中占比较低的情况下，现有技术方案要么对无标签样本在建模阶段完全不进行使用，要么考虑一次推断模型，即使用有标签的样本建模后，对无标签样本进行推断，然后使得其中部分样本成为带标签样本后纳入训练集进行第二次模型训练。在一次性推断的模型中，均会假定被推断的样本信息价值相同，而是否选择纳入模型，只能通过阈值设定进行一次性的分析。而因为原有标签的样本数量较少，引入的推断样本通常会极大的干扰模型性能，导致模型虚假拟合(第二次模型对推断样本进行了过度拟合)，在后续模型监控过程中会发现模型的稳定性较差，从而导致利用该模型为无标签的样本进行标签补全时差错率较高。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种扩充样本方法、系统、装置及可读存储介质，旨在解决现有对无标签的样本进行标签补全时差错率较高，导致样本扩充不理想的技术问题。

为实现上述目的，本发明提供一种扩充样本方法，所述的扩充样本方法包括以下步骤：

基于迭代次数与参数集的预设关系表，获取当前迭代次数对应的预设参数集，其中，所述预设参数集包括多组预设参数；

分别基于预设样本、预设样本对应的标签、各组预设参数训练初始分类模型，得到各组预设参数对应的分类模型；

基于各个分类模型的基尼GINI系数，确定最优分类模型；

基于预设规则、待校对样本以及所述最优分类模型，在所述待校对样本中确定新增样本。

进一步地，在一实施方式中，所述基于预设规则、待校对样本以及所述最优分类模型，在所述待校对样本中确定新增样本的步骤包括：

基于预设获取规则在所述待校对样本中确定待校对子样本；

基于所述最优分类模型、所述待校对子样本生成所述待校对子样本对应的标签；

基于所述待校对子样本对应的标签以及预设值在所述待校对子样本中确定新增样本。