[发明专利]基于少量欺诈样本的银行高风险欺诈客户识别方法有效
申请号: | 201911235911.1 | 申请日: | 2019-12-05 |
公开(公告)号: | CN111047428B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 杨颖一 | 申请(专利权)人: | 深圳索信达数据技术有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02 |
代理公司: | 深圳市千纳专利代理有限公司 44218 | 代理人: | 黄良宝 |
地址: | 518000 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 少量 欺诈 样本 银行 风险 客户 识别 方法 | ||
1.基于少量欺诈样本的银行高风险欺诈客户识别方法,其特征在于所述方法包括有如下步骤:
S1:提取银行客户数据D,D={Dp,Du},其中Dp表示已标记为“欺诈”的客户,Du表示未标记为“欺诈”的客户群体;Dpi=Ai,yi,Dui=Ai,其中Ai为某客户的特征变量,yi为对应类别;yi=+1代表“欺诈”,yi=-1代表“非欺诈”;A为所有客户的特征变量组成的矩阵;
S2:对原始数据进行数据预处理和数据清洗;
S3:从Dp中随机抽出s%的样本作为间谍样本,并放入Du中产生新的数据集和
S4:利用和作为两个类别训练逻辑回归模型,并用该逻辑回归模型对中的数据打分,即样本为正例的概率值,取Du中分数低于设定阈值t的样本组成可靠负样本集Dn,可靠负样本集中样本对应标签yi=-1;
S5:用Dp和Dn,对应类别分别为yi=+1和yi=-1;训练随机森林模型,Posl为样本S=(Dp∪Dn)中正样本的比例,使用bootstrap从S中抽取样本做训练集,最终约有的样本在训练集中,剩余的做验证集;
S6:将Posl分别设置为0.1-0.9,步长为0.1,对应每个Posl,使用训练集数据构造一棵树Tj,j=1,2,...,9;构造一棵树Tj的步骤如下:
S61、从属性集合A中随机有放回抽样形成新的属性空间A′;
S62、对属性空间A′中的每个属性aj,计算信息增益,|P|和|U|分别表示训练集中正样本个数和未标记样本个数,|Pnode|和|Unode|分别表示节点数据中正样本个数和未标记样本个数,信息增益计算方法如下:
p-1=1-p1
S63、具有最大信息增益的属性选作分割属性并从分割点伸展出子节点;
S64、对每个子节点重复步骤S61至步骤S63,直到树无法分裂生长完全;
S7:利用验证集数据从步骤S6产生的9棵树中找出最优树F;找出最优树的步骤如下:
S71:将Tj,j=1,2,...,9分别作用于测试集上,计算测试集中正样本个数|Pv|,未标记样本个数|Uv|,假负数|FUv|,以及假正数|FPv|;
S72:计算评估指数:
S73:最小评估指数对应的树为最优树;
S8:重复步骤S5到步骤S7直到得到n棵最优树,集成后得到一个包含n棵树的随机森林,利用上述训练得到的随机森林,对银行客户数据进行输入预测,预测类别yi=+1的客户认定为高风险欺诈客户。
2.根据权利要求1所述的基于少量欺诈样本的银行高风险欺诈客户识别方法,其特征在于:步骤S2中所述的数据预处理和数据清洗包括:检查数据质量,清除重复数据和异常数据,填补解释变量A的缺失值并进行归一化,并将类别变量转化为数值型变量。
3.根据权利要求1所述的基于少量欺诈样本的银行高风险欺诈客户识别方法,其特征在于:步骤S4中的阈值t为15%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳索信达数据技术有限公司,未经深圳索信达数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911235911.1/1.html,转载请声明来源钻瓜专利网。