[发明专利]一种风控模型训练方法、装置及设备有效
申请号: | 201910305354.X | 申请日: | 2019-04-16 |
公开(公告)号: | CN110147823B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 张超;朱通;孙传亮;赵华 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06Q10/0635 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 装置 设备 | ||
公开了一种风控模型训练方法、装置及设备。在训练样本中的黑样本不纯的时候,在训练风控模型时,通过相关的其它已训练风险识别模型对于训练样本进行交叉验证,从而滤除掉那些具有低评分的黑样本和高评分的白样本,利用筛选后的样本重新训练模型。
技术领域
本说明书实施例涉及信息技术领域,尤其涉及一种风控模型训练方法、装置及设备。
背景技术
在模型训练过程中,有很多训练样本集合是包含足够白样本,但缺乏足够的黑样本,或者说黑样本不够纯。
例如,在风控领域,用户或商户本人利用账户进行非法/不合规的行为产生主动风险,常见的主要有垃圾注册、营销作弊、虚假交易、虚假商户、赌博等等。这类风险案件没有精确的人工打标或者案件定性,黑样本产生方也不会主动“报案”,缺乏有效的风险反馈机制。由此带来进行模型训练时,部分训练样本的标签不准确,影响后续的模型训练。
基于此,需要一种更准确的风控模型训练方案。
发明内容
本申请实施例的目的是提供一种更准确的风控模型训练方案。
为解决上述技术问题,本申请实施例是这样实现的:
一种风控模型训练方法,包括:
获取训练样本的集合,其中,所述训练样本包括用户注册记录、用户交易记录、用户转账/收款记录或者用户营销记录,所述训练样本为已经标注的黑样本或者白样本;
利用以下步骤进行迭代处理,直到待训练的风控模型对训练样本的分类指标满足预设需求:
采用交叉验证模型对训练样本进行评估,确定交叉验证模型对每个训练样本的风险评分,其中,交叉验证模型中包含与所述待训练的风控模型相关的其它已训练风险识别模型,和,迭代过程中的当前待训练的风控模型;训练样本的风险评分越高,表征该训练样本是黑样本的概率越大,所述其它已训练风险识别模型与所述待训练模型的分类标签相同,训练中所使用的分类特征至少部分相同;
滤除具有高风险评分的白样本和具有低风险评分的黑样本,得到新的训练样本集合;
迭代结束后,将当前的待训练的风控模型确定为可用风控模型。
对应的,本说明书实施例还提供一种风控模型训练装置,包括:
获取模块,获取训练样本的集合,其中,所述训练样本包括用户注册记录、用户交易记录、用户转账/收款记录或者用户营销记录,所述训练样本为已经标注的黑样本或者白样本;
迭代模块,利用以下步骤进行迭代处理,直到待训练的风控模型对训练样本的分类指标满足预设需求,所述迭代模块包括,
评估子模块,采用交叉验证模型对训练样本进行评估,确定交叉验证模型对每个训练样本的风险评分,其中,交叉验证模型中包含与所述待训练的风控模型相关的其它已训练风险识别模型,和,迭代过程中的当前待训练的风控模型;训练样本的风险评分越高,表征该训练样本是黑样本的概率越大,所述其它已训练风险识别模型与所述待训练模型的分类标签相同,训练中所使用的分类特征至少部分相同;
样本滤除子模块,滤除具有高风险评分的白样本和具有低风险评分的黑样本,得到新的训练样本集合;
重新训练子模块,使用所述新的训练样本集合,更新待训练的风控模型,对所述新的训练样本集合进行分类,重新确定新的训练样本集合中的训练样本的标签,确定更新后的待训练的风控模型对于所述新的训练样本集合的分类指标;
确定模块,迭代结束后,将当前的待训练的风控模型确定为可用风控模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910305354.X/2.html,转载请声明来源钻瓜专利网。