[发明专利]用于机器学习模型的样本数据生成方法、装置及电子设备在审
申请号: | 201910921527.0 | 申请日: | 2019-09-27 |
公开(公告)号: | CN110781922A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 高明宇;王鹏;张潮华;郑彦 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/10;G06Q10/06 |
代理公司: | 11691 北京清诚知识产权代理有限公司 | 代理人: | 曹玲柱 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集合 负样本 正样本 机器学习模型 子集合 分类样本 历史用户 样本数据 正负样本 计算机可读介质 异常值监测 电子设备 分类模型 金融数据 输入用户 数据处理 数据集合 用户分类 算法 | ||
本公开涉及一种用于机器学习模型的样本数据生成方法、装置、电子设备及计算机可读介质。该方法包括:根据用户活跃时间和异常值监测算法将多个历史用户分入正样本集合、负样本集合和未分类样本集合;基于正样本集合、负样本集合对第一机器学习模型进行训练,生成用户分类模型;将未分类样本集合中的历史用户的金融数据输入用户分类模型中,生成正样本子集合和负样本子集合;通过正样本集合、正样本子集合生成用于机器学习模型的正样本数据;以及通过负样本集合、负样本子集合生成用于机器学习模型的负样本数据。本公开的一种用于机器学习模型的样本数据生成方法,能够对现有的正负样本数据进行数据处理生成更加精确的正负样本数据集合。
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种用于机器学习模型的样本数据生成方法、装置、电子设备及计算机可读介质。
背景技术
通常情况下机器学习模型需要对正样本和负样本进行学习,正样本是正确分类出的类别所对应的样本,负样本原则上可以选取任何不是正确类别的其他样本。机器学习模型根据正负样本建立特定的任务,然后通过特定的数据来对机器学习进行训练,在训练结束后,得到适用于某一个特定任务的机器学习模型。
通常情况下,即使用同一个机器学习模型的算法,但是用不同的数据训练得到的机器学习模型是完全不同的。但是对于金融领域的模型而言,特别是对于评价用户行为的用户金融类的机器模型而言,对存量客户管理时候,最简单的可以将客户分为流失和未流失。传统的客户历史模型直接使用上述数据集进行建模。然而,流失客户数据特征维度多、饱和度低等问题,流失客户特征聚集度低,直接建模效果不佳。如果直接将未流失客户当做负样本训练机器学习模型中的二分类模型的话,由于负样本中存在大量正样本(未来可能会动支的客户),这种负样本会引入很多误差数据,可能导致训练出来的最终的模型效果不够理想。
因此,需要一种新的用于机器学习模型的样本数据生成方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种用于机器学习模型的样本数据生成方法、装置、电子设备及计算机可读介质,能够对现有的正负样本数据进行数据处理生成更加精确的正负样本数据集合,进而通过精确的正负样本数据集合对机器学习模型进行训练,生成金融风险模型。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种用于机器学习模型的样本数据生成方法,该方法包括:获取多个历史用户的金融数据,所述金融数据中包括用户活跃时间;根据所述用户活跃时间和异常值监测算法将所述多个历史用户分入正样本集合、负样本集合和未分类样本集合;基于所述正样本集合、所述负样本集合对第一机器学习模型进行训练,生成用户分类模型;将所述未分类样本集合中的历史用户的金融数据输入所述用户分类模型中,生成正样本子集合和负样本子集合;通过正样本集合、正样本子集合生成用于机器学习模型的正样本数据;以及通过负样本集合、负样本子集合生成用于机器学习模型的负样本数据。
可选地,还包括:通过所述正样本数据与所述负样本数据训练第二机器学习模型以生成用户流失模型。
可选地,根据所述用户活跃时间和异常值监测算法将所述多个历史用户分入正样本集合、负样本集合和未分类样本集合包括:根据所述用户活跃时间将所述多个历史用户分别分入第一用户集合和第二用户集合;通过异常值监测算法对第一用户集合和第二用户集合中的历史用户的金融数据进行筛选以生成所述正样本集合、所述负样本集合和所述未分类样本集合。
可选地,根据所述用户活跃时间将所述多个历史用户分别分入第一用户集合和第二用户集合包括:将所述用户活跃时间大于预定日期的历史用户分入所述第一用户集合;以及将所述用户活跃时间小于等于预定日期的历史用户分入所述第二用户集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910921527.0/2.html,转载请声明来源钻瓜专利网。