[发明专利]样本数据的处理方法及装置有效
申请号: | 202111107477.6 | 申请日: | 2021-09-22 |
公开(公告)号: | CN113919936B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 王珍;孙祥坤;陈昶汝;杨丽娟 | 申请(专利权)人: | 百融至信(北京)征信有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06K9/62;G06N3/04 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 刘铁生;孟阿妮 |
地址: | 100000 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 数据 处理 方法 装置 | ||
本申请公开一种样本数据的处理方法及装置,涉及数据处理技术领域。本申请的方法包括:获取样本数据集,样本数据集包含多个未标记样本数据;分别将每个未标记样本数据输入至预置评分模型中,以获得每个未标记样本数据对应的评分结果;根据每个未标记样本数据对应的评分结果对多个未标记样本数据进行多轮打标签处理,以获得多个第一正样本数据和多个第一负样本数据;根据多个第一正样本数据和多个第一负样本数据对预置机器学习模型和预置深度学习模型进行多轮迭代训练,以获得第一标签预测模型和第二标签预测模型;根据第一标签预测模型和第二标签预测模型对多个剩余未标记样本数据进行多轮打标签处理。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种样本数据的处理方法及装置。
背景技术
随着社会的不断发展和人们消费观念的逐渐升级,越来越多的人们通过贷款方式来提升自身的生活水平。在贷款申请人向金融机构平台申请贷款服务的过程中,金融机构平台为了降低贷款风险,金融机构平台根据贷款人的个人信息数据和行为表现数据确定贷款人是否会违约还款,即确定贷款人是否为劣质客户。
目前,金融机构平台通常是先基于大量带有标签(优质客户标签或劣质客户标签)的样本数据(历史贷款人的个人信息数据和/或行为表现数据)训练获得预测模型,再将待评估贷款人的个人信息数据和/或行为表现数据输入至预测模型中,以便预测模型输出待评估贷款人为劣质客户的概率。然而,在信贷领域内,获取无标签的样本数据相对容易,而为大量无标签的样本数据打上标签需要耗费大量的人力和物力。因此,金融机构平台如何高效地为大量无标签的样本数据打上标签是目前丞待解决的问题。
发明内容
本申请实施例提供一种样本数据的处理方法及装置,主要目的在于高效地为大量无标签的样本数据打上标签。
为解决上述技术问题,本申请实施例提供如下技术方案:
第一方面,本申请提供了一种样本数据的处理方法,该方法包括:
获取样本数据集,其中,所述样本数据集中包含多个无标签的未标记样本数据;
分别将每个所述未标记样本数据输入至预置评分模型中,以获得每个所述未标记样本数据对应的评分结果;
根据每个所述未标记样本数据对应的评分结果对多个所述未标记样本数据进行多轮打标签处理,直至达到第一预设停止条件,以获得多个第一正样本数据和多个第一负样本数据;
根据多个所述第一正样本数据和多个所述第一负样本数据对预置机器学习模型和预置深度学习模型进行多轮迭代训练,直至达到第二预设停止条件,以获得第一标签预测模型和第二标签预测模型;
根据所述第一标签预测模型和所述第二标签预测模型对多个剩余未标记样本数据进行多轮打标签处理,直至达到第三预设停止条件。
可选的,所述根据每个所述未标记样本数据对应的评分结果对多个所述未标记样本数据进行多轮打标签处理,直至达到第一预设停止条件,以获得多个第一正样本数据和多个第一负样本数据,包括:
针对每一轮打标签处理而言:
根据每个所述未标记样本数据对应的评分结果对多个所述未标记样本数据进行正向排序,以获得第一序列;
获取所述第一序列中排序靠前的X个未标记样本数据;根据预置无监督聚类算法对X个所述未标记样本数据进行聚类处理,以获得多个类簇;根据每个所述未标记样本数据对应的评分结果计算每个所述类簇对应的平均评分;对平均评分最高的类簇中包含的每个所述未标记样本数据进行打标签处理,以获得多个第一正样本数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百融至信(北京)征信有限公司,未经百融至信(北京)征信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111107477.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置