[发明专利]一种反欺诈模型的训练方法及装置在审
申请号: | 201911302469.X | 申请日: | 2019-12-17 |
公开(公告)号: | CN111104978A | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 刘正夫 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q20/40 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 任媛;刘铁生 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 欺诈 模型 训练 方法 装置 | ||
本发明公开了一种反欺诈模型的训练方法及装置,主要方案包括:执行模型迭代训练过程:将训练样本数据集中留存的训练样本数据拆分为训练集和验证集;用训练集分别训练多个弱分类器后,获取多个弱分类器分别在验证集上的预测分值;对于每个弱分类器,根据其在验证集上的预测分值确定该弱分类器的数据分布适应度值;根据各弱分类器的数据分布适应度值选取目标弱分类器;利用目标弱分类器对训练集进行预测,根据预测分值对训练样本数据集进行训练样本数据剔除处理;当训练样本数据集中留存的训练样本数据的数据量小于数据量阈值时结束迭代训练过程,否则进行下一轮训练;在结束迭代训练过程后组合各轮训练中得到的目标弱分类器形成反欺诈模型。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种反欺诈模型的训练方法及装置。
背景技术
互联网技术的发展,金融领域的交易行为越来越多的依赖于互联网进行,但是相伴而生的骗贷、违约、转账等欺诈性行为逐渐渗入到互联网中,为了保证交易行为的安全,对于金融机构而言,针对反欺诈识别监控成为抵御金融风险的重要工作之一。
通常而言,金融领域的欺诈行为是一种复杂且隐蔽的行为,目前通常通过深度学习方法而得的反欺诈模型进行反欺诈监控。使用传统方法对反欺诈模型建模时,通常有两种方式:一是,使用复杂模型和简单特征,例如深度学习和一些原始特征。通常需要利用模型从简单的原始特征中抽象出更高级的上层特征,从而来拟合最终结果。当前最具代表性的方法是“深度学习”,该方式为了提高模型的拟合能力和特征抽象能力,通常需要为神经网络增加网络节点或者网络层,这会大大增加对算力的需求。二是、使用简单模型和复杂特征,例如逻辑回归和大量的衍生特征。通常需要人工提取大量特征,人为的对原始特征进行特征衍生。通常需要渊博的专家知识、深刻的业务理解和对机器学习算法了解来进行特征衍生和算法选择。企业需要耗费大量人力来完成建模工作。可见,现有的方式,反欺诈模型的构建需要大量的人工和算力成本。
发明内容
有鉴于此,本发明提出了一种反欺诈模型的训练方法方法及装置,主要目的在于降低反欺诈模型建模的人工和算力成本。
第一方面,本发明提供了一种反欺诈模型的训练方法,该方法包括:
获取训练样本数据集,所述训练样本数据集中包括多个具有二分类标签的训练样本数据,其中,所述二分类标签用于表征训练样本数据是否为与欺诈行为相应的数据;
执行模型迭代训练过程,其中,每一轮训练包括如下步骤:将所述训练样本数据集中留存的训练样本数据拆分为训练集和验证集;用所述训练集分别训练预设的多个弱分类器后,获取所述多个弱分类器分别在验证集上的预测分值;对于每个弱分类器,根据其在验证集上的预测分值确定该弱分类器的数据分布适应度值;根据各弱分类器的数据分布适应度值,选取一个目标弱分类器;利用所述目标弱分类器对所述训练集进行预测,并根据预测分值对所述训练样本数据集进行训练样本数据剔除处理;判断所述训练样本数据集中留存的训练样本数据的数据量是否小于预设的数据量阈值,是则结束迭代训练过程,否则进行下一轮训练;
在结束迭代训练过程后,组合各轮训练中得到的目标弱分类器形成反欺诈模型。
第二方面,本发明提供了一种反欺诈模型的训练装置,该装置包括:
获取单元,用于获取训练样本数据集,所述训练样本数据集中包括多个具有二分类标签的训练样本数据,其中,所述二分类标签用于表征训练样本数据是否为与欺诈行为相应的数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911302469.X/2.html,转载请声明来源钻瓜专利网。