[发明专利]一种基于银行数据的外出务工人员识别方法、设备及介质在审
申请号: | 202011237043.3 | 申请日: | 2020-11-09 |
公开(公告)号: | CN112308705A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 尹卓英;龙军 | 申请(专利权)人: | 中南大学 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06Q30/02;G06K9/62;G06N20/20 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 熊开兰 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 银行 数据 外出 务工人员 识别 方法 设备 介质 | ||
1.一种基于银行数据的外出务工人员识别方法,其特征在于,包括以下步骤:
步骤1,构建监督样本集;
获取银行的大量客户数据,从中提取与外出标签关联的客户特征并作为样本的特征向量,以开户登记的外出标签作为样本标签,构建弱监督样本集WD;
从弱监督样本集中选择部分样本,通过人工验证对应客户是否外出,并以验证的结果作为样本标签,构建强监督样本集SD;
步骤2,构建分类模型,利用弱监督样本集WD和强监督样本集SD对分类模型进行训练,得到外出务工识别模型;
步骤3,对待识别客户,从其客户数据中提取客户特征,将客户特征输入至外出务工识别模型,输出得到待识别客户是否为外出务工人员。
2.根据权利要求1所述的方法,其特征在于,所述客户特征包括客户基础属性、交易数据、位置相关的交易数据、以及资产负债信息四类特征;所述客户基础属性包括客户的性别、年龄和户龄;所述交易数据包括预设时段内的收入与消费数据、线下存取款数据;所述位置相关的交易数据是指异地的收入与消费数据;所述资产负债信号包括定期存款、活期存款和贷款信息。
3.根据权利要求2所述的方法,其特征在于,客户基础属性类特征中,若客户数据中性别未知、年龄超过相应预设值或者户龄超过相应预设值,则将其客户特征中的对应特征值设置为缺失;交易数据类特征和位置相关的交易数据类特征中,是将真实金额数据进行对数转换后得到的值作为对应特征值。
4.根据权利要求1所述的方法,其特征在于,步骤1在获取银行的大量客户数据时,选择开户时间在预设范围内的客户数据。
5.根据权利要求1-4任一所述的方法,其特征在于,利用弱监督样本集WD和强监督样本集SD对分类模型进行训练的具体步骤为:
步骤2.1,将强监督样本集SD和弱监督样本集WD中的样本,分别赋予权重ws和ww,且wsww,然后合并为训练集;
步骤2.2,选择XGBoost算法,使用训练集通过交叉验证和网格搜索确定XGBoost算法的超参数构建分类模型xgb0;
步骤2.3,在强监督样本集SD和弱监督样本集WD的多组权重组合中,通过置信学习算法使用分类模型的预测结果和样本标签,识别出弱监督样本集中的噪声样本,然后更新噪声样本的权重,在多次迭代中得到每组权重组合下最优的加权样本集和分类模型;
步骤2.4,通过计算所有权重组合下的识别模型的评估指标,确定强监督样本集SD和弱监督样本集WD最优的权重组合,使用该权重组合的训练集并采用XGBoost算法训练分类模型,得到最终的外出务工识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011237043.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置