[发明专利]用于样本分类的数据处理方法、数据处理装置和电子设备在审
申请号: | 201910535047.0 | 申请日: | 2019-06-20 |
公开(公告)号: | CN112115956A | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 刘志玲;党亚瑞;李莉 | 申请(专利权)人: | 中科聚信信息技术(北京)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q40/02 |
代理公司: | 北京彩和律师事务所 11688 | 代理人: | 刘磊;闫桑田 |
地址: | 100081 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 样本 分类 数据处理 方法 装置 电子设备 | ||
本申请涉及一种用于样本分类的数据处理方法、数据处理装置和电子设备。该方法包括:根据样本分布分析结果对样本数据进行行采样以获得两个以上的子样本;基于特征变量列表的含义对所述样本数据进行列采样以获得两个以上的特征变量子集;配对所述两个以上的子样本和所述两个以上的特征变量子集以获得两个以上的配对样本集;针对所述两个以上的配对样本集中的每一配对样本集以逻辑回归算法生成分类器;以及,集成针对所述两个以上的配对样本集所生成的两个以上的分类器。这样,可以通过结合逻辑回归算法和分类器集成,在保证可解释性的同时提高拟合能力。
技术领域
本申请总的来说涉及数据处理领域,且更为具体地,涉及一种用于样本分类的数据处理方法、数据处理装置和电子设备。
背景技术
信用评分模型广泛用于信贷信用风险领域,特别是在零售信贷风险管理实践中,信用评分具有关键作用。具体地,在信贷申请阶段,通过基于申请评分的策略实现自动决策;在贷后管理阶段,可以使用行为评分及催收评分设计客户管理、预警以及催收策略。基于信用评分的决策机制可以帮助信用风险管理人员高效、客观的管理信贷业务。
不管是申请评分模型、行为评分模型还是催收评分模型,其目的在于能够根据特征变量来开发模型,用以对客户进行分群,来实施不同的策略,以达到不同的业务目标。也就是说,其本质上是对客户群体进行分类。
因此,为了更好地实现各种评分机制,需要改进的分类方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于样本分类的数据处理方法、数据处理装置和电子设备,其可以通过结合逻辑回归算法和分类器集成,在保证可解释性的同时提高拟合能力。
根据本申请的一方面,提供了一种用于样本分类的数据处理方法,包括:根据样本分布分析结果对样本数据进行行采样以获得两个以上的子样本;基于特征变量列表的含义对所述样本数据进行列采样以获得两个以上的特征变量子集;配对所述两个以上的子样本和所述两个以上的特征变量子集以获得两个以上的配对样本集;针对所述两个以上的配对样本集中的每一配对样本集以逻辑回归算法生成分类器;以及,集成针对所述两个以上的配对样本集所生成的两个以上的分类器。
在上述用于样本分类的数据处理方法中,根据样本分布分析结果对样本数据进行行采样以获得两个以上的子样本包括:对所述样本数据中的所有样本采取有放回方式进行采样。
在上述用于样本分类的数据处理方法中,根据样本分布分析结果对样本数据进行行采样以获得两个以上的子样本包括:确定所述样本数据中的特定类型样本的比例;以及,响应于所述特定类型样本的比例小于预定阈值,基于所述样本数据中所述特定类型样本与其余样本的比例向所述特定类型样本分配第一权重,并向所述其余样本分配第二权重,且所述第一权重大于所述第二权重。
在上述用于样本分类的数据处理方法中,基于特征变量列表的含义对所述样本数据进行列采样以获得两个以上的特征变量子集包括以下的至少其中之一:响应于特征变量能够粗分大类,按照分层随机的方式进行采样;以及,响应于特征变量不能够粗分大类,按照简单随机的方式进行采样。
在上述用于样本分类的数据处理方法中,集成针对所述两个以上的配对样本集所生成的两个以上的分类器包括:向所述两个以上的分类器中的每个分类器分配相同权重;以及,对所述两个以上的分类器的预测结果进行平均以获得样本分类结果。
在上述用于样本分类的数据处理方法中,集成针对所述两个以上的配对样本集所生成的两个以上的分类器包括:将所述两个以上的分类器中的每个分类器的预测结果作为新特征变量;针对保留所有特征变量的测试样本数据采用简单逻辑回归拟合以获得相对于每个分类器的拟合系数;以及,将所述每个分类器的预测结果乘以所述拟合系数之积相对于两个以上的分类器求和并除以所述两个以上的分类器的拟合系数之和以获得所述样本分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科聚信信息技术(北京)有限公司,未经中科聚信信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910535047.0/2.html,转载请声明来源钻瓜专利网。