[发明专利]基于少量欺诈样本的银行高风险欺诈客户识别方法有效

专利信息
申请号: 201911235911.1 申请日: 2019-12-05
公开(公告)号: CN111047428B 公开(公告)日: 2023-08-08
发明(设计)人: 杨颖一 申请(专利权)人: 深圳索信达数据技术有限公司
主分类号: G06Q40/02 分类号: G06Q40/02
代理公司: 深圳市千纳专利代理有限公司 44218 代理人: 黄良宝
地址: 518000 广东省深圳市南山*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 少量 欺诈 样本 银行 风险 客户 识别 方法
【权利要求书】:

1.基于少量欺诈样本的银行高风险欺诈客户识别方法,其特征在于所述方法包括有如下步骤:

S1:提取银行客户数据D,D={Dp,Du},其中Dp表示已标记为“欺诈”的客户,Du表示未标记为“欺诈”的客户群体;Dpi=Ai,yi,Dui=Ai,其中Ai为某客户的特征变量,yi为对应类别;yi=+1代表“欺诈”,yi=-1代表“非欺诈”;A为所有客户的特征变量组成的矩阵;

S2:对原始数据进行数据预处理和数据清洗;

S3:从Dp中随机抽出s%的样本作为间谍样本,并放入Du中产生新的数据集和

S4:利用和作为两个类别训练逻辑回归模型,并用该逻辑回归模型对中的数据打分,即样本为正例的概率值,取Du中分数低于设定阈值t的样本组成可靠负样本集Dn,可靠负样本集中样本对应标签yi=-1;

S5:用Dp和Dn,对应类别分别为yi=+1和yi=-1;训练随机森林模型,Posl为样本S=(Dp∪Dn)中正样本的比例,使用bootstrap从S中抽取样本做训练集,最终约有的样本在训练集中,剩余的做验证集;

S6:将Posl分别设置为0.1-0.9,步长为0.1,对应每个Posl,使用训练集数据构造一棵树Tj,j=1,2,...,9;构造一棵树Tj的步骤如下:

S61、从属性集合A中随机有放回抽样形成新的属性空间A′;

S62、对属性空间A′中的每个属性aj,计算信息增益,|P|和|U|分别表示训练集中正样本个数和未标记样本个数,|Pnode|和|Unode|分别表示节点数据中正样本个数和未标记样本个数,信息增益计算方法如下:

p-1=1-p1

S63、具有最大信息增益的属性选作分割属性并从分割点伸展出子节点;

S64、对每个子节点重复步骤S61至步骤S63,直到树无法分裂生长完全;

S7:利用验证集数据从步骤S6产生的9棵树中找出最优树F;找出最优树的步骤如下:

S71:将Tj,j=1,2,...,9分别作用于测试集上,计算测试集中正样本个数|Pv|,未标记样本个数|Uv|,假负数|FUv|,以及假正数|FPv|;

S72:计算评估指数:

S73:最小评估指数对应的树为最优树;

S8:重复步骤S5到步骤S7直到得到n棵最优树,集成后得到一个包含n棵树的随机森林,利用上述训练得到的随机森林,对银行客户数据进行输入预测,预测类别yi=+1的客户认定为高风险欺诈客户。

2.根据权利要求1所述的基于少量欺诈样本的银行高风险欺诈客户识别方法,其特征在于:步骤S2中所述的数据预处理和数据清洗包括:检查数据质量,清除重复数据和异常数据,填补解释变量A的缺失值并进行归一化,并将类别变量转化为数值型变量。

3.根据权利要求1所述的基于少量欺诈样本的银行高风险欺诈客户识别方法,其特征在于:步骤S4中的阈值t为15%。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳索信达数据技术有限公司,未经深圳索信达数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911235911.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top