[发明专利]基于交叉验证的标签补全方法、终端、装置及存储介质在审
申请号: | 201910622809.0 | 申请日: | 2019-07-10 |
公开(公告)号: | CN110334815A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 康焱;刘洋;陈天健;杨强 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518052 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 样本 交叉验证 终端 存储介质 校对 机器模型 目标标签 判别模型 算法确定 样本生成 终端数据 保证 | ||
本发明公开了一种基于交叉验证的标签补全方法,包括以下步骤:第一终端基于第一样本、所述第一样本对应的第一标签以及第二样本生成所述第二样本对应的待校对标签,而后所述第一终端基于所述第二样本、所述待校对标签以及交叉验证算法确定所述第二样本对应的目标标签。本发明还公开了一种装置、终端及存储介质。本发明解决了标签对本地判别模型的偏执,提升了机器模型的性能和标签补全的准确性,同时保证了各终端数据的安全性。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于交叉验证的标签补全方法、终端、装置及存储介质。
背景技术
基于监督学习的机器学习算法需要充足的有标签的样本来训练模型,才能达到理想的效果。在现实的应用场景中,部分(甚至大部分)训练样本的标签是缺失的,没有标签的样本将不能用于模型训练,我们通常只能放弃这些样本,这样在造成样本数据浪费的同时,也造成了用来训练机器学习模型的样本数据的不充足,从而降低了训练模型的泛化能力。
目前,现有的技术方案是收集更多的有标签样本或对无标签样本进行标注。然而,人工的有标签样本的收集或样本标注往往需要专业的技术人员来完成,成本高昂。自动标注样本是降低标签成本的一个有效方法。现有的自动样本标注技术是利用迁移学习从拥有大量标签样本的数据集上训练一个判别模型,然后,用该判别模型来确定无标签样本的标签。该种方法的缺点有:从时间成本和人力成本上看,收集大量标签样本的数据集是昂贵的;现成的成本低的标签样本,能够用于迁移学习的大数据集通常只存在于专业度低的领域,比如动物的识别,在专业度高的领域,比如医疗、金融、异常检验等。
在专业度高的领域,优质的样本数据往往分散于不同的企业机构中。可以通过分布式计算的方式利用各个企业机构拥有的数据或模型来进行标签补全。然而,企业机构通常将自己拥有的数据和模型视为商业秘密,这使得非加密的分布式计算方案在现实中是不可行的。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于交叉验证的标签补全方法、系统、装置及存储介质,旨在解决现有标签补全中通过本地判别模型补上的标签对本地判别模型有较强的偏执和标签不准确的技术问题。
为实现上述目的,本发明提供一种基于交叉验证的标签补全方法,所述的基于交叉验证的标签补全方法包括以下步骤:
第一终端基于第一样本、所述第一样本对应的第一标签以及第二样本生成所述第二样本对应的待校对标签;
所述第一终端基于所述第二样本、所述待校对标签以及交叉验证算法确定所述第二样本对应的目标标签。
进一步地,在一实施方式中,所述第一终端基于第一样本、所述第一样本对应的第一标签以及第二样本生成所述第二样本对应的待校对标签的步骤包括:
基于所述第一样本以及所述第一标签训练得到第一预测模型;
基于所述第一预测模型以及所述第二样本生成所述待校对标签。
进一步地,在一实施方式中,所述第一终端基于所述第二样本、所述待校对标签以及交叉验证算法确定所述第二样本对应的目标标签的步骤包括:
基于所述第一样本、所述第一样本对应的第一标签、所述第二样本以及所述第二样本对应的待校对标签训练得到第二预测模型;
基于预设加密算法对所述第二预测模型进行加密,并分别发送加密后的第二预测模型至通信系统中的第二终端;
在接收到所述第二终端对应的加密预测模型时,基于所述第二样本以及所述加密预测模型生成预设数量的加密预测标签;
基于所述加密预测标签确定所述第二样本对应的目标标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910622809.0/2.html,转载请声明来源钻瓜专利网。