[发明专利]一种模型训练方法、装置、及计算机设备有效
申请号: | 201810848267.4 | 申请日: | 2018-07-27 |
公开(公告)号: | CN109214421B | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 王骏 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 装置 计算机 设备 | ||
公开了一种模型训练方法、装置、及计算机设备,该方法包括:确定所述源域样本集和目标域样本集的共有特征空间;根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;将已预测出标签值的不确定标签样本与所述源域样本集进行整合,利用整合后的样本集训练得到分类模型。
技术领域
本说明书实施例涉及数据处理技术领域,尤其涉及一种模型训练方法、装置、及计算机设备。
背景技术
在机器学习、深度学习、数据挖掘等任务中,利用大量的带有可靠标签的数据样本进行训练,可以获得各种形式的数据模型以实现业务功能,例如防范欺诈风险、信用风险。
随着业务国际化的发展,通常希望针对国内业务场景实现的业务功能也可以快速应用于类似的海外业务场景中,然而,由于海外业务场景虽然与国内业务场景具有相似之处,但仍存在其独有的特性,从而,若直接将基于国内业务场景训练得到的数据模型应用于海外业务场景,则会导致模型识别结果的准确率较低;同时,由于带有标签的数据样本是需要一定时间的数据积累才可得到,从而,若从零开始重新训练新的适用于海外业务场景的数据模型,则需耗费较长时间,训练效率较低。
发明内容
针对上述技术问题,本说明书实施例提供一种模型训练方法、装置、及计算机设备,技术方案如下:
根据本说明书实施例的第一方面,提供一种模型训练方法,所述方法包括:
确定所述源域样本集和目标域样本集的共有特征空间;
根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;
根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;
将已预测出标签值的不确定标签样本与所述源域样本集进行整合,利用整合后的样本集训练得到分类模型。
根据本说明书实施例的第二方面,提供一种模型训练装置,所述装置包括:
共有特征确定模块,用于确定所述源域样本集和目标域样本集的共有特征空间;
正负相关特征确定模块,用于根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;
标签值预测模块,用于根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;
整合模块,用于将已预测出标签值的不确定标签样本与所述源域样本集进行整合;
训练模块,用于利用整合后的样本集训练得到分类模型。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现本说明书实施例提供的任一模型训练方法。
本说明书实施例所提供的技术方案,通过确定源域样本集和目标域样本集的共有特征空间;根据源域样本集中已确定标签样本的标签值,和其在共有特征空间上的特征值,在共有特征空间中确定出正相关特征项和负相关特征项;根据正相关特征项和负相关特征项预测出目标域样本集中不确定标签样本的标签值;将已预测出标签值的不确定标签样本与源域样本集进行整合,利用整合后的样本集训练得到分类模型,由于利用源域样本集的知识对目标域样本集进行打标,然后将源域样本集与目标域样本集中已打标的不确定标签样本进行整合,基于整合后的样本集训练得到分类模型,从而实现快速训练出符合目标域特有业务特性的分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810848267.4/2.html,转载请声明来源钻瓜专利网。