[发明专利]基于少量欺诈样本的银行高风险欺诈客户识别方法有效

申请号：	201911235911.1	申请日：	2019-12-05
公开（公告）号：	CN111047428B	公开（公告）日：	2023-08-08
发明（设计）人：	杨颖一	申请（专利权）人：	深圳索信达数据技术有限公司
主分类号：	G06Q40/02	分类号：	G06Q40/02
代理公司：	深圳市千纳专利代理有限公司 44218	代理人：	黄良宝
地址：	518000 广东省深圳市南山***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于少量欺诈样本银行风险客户识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于少量欺诈样本的银行高风险欺诈客户识别方法，其特征在于所述方法包括有如下步骤：

S1：提取银行客户数据D，D＝{D_p,D_u}，其中D_p表示已标记为“欺诈”的客户，D_u表示未标记为“欺诈”的客户群体；D_pi＝A_i,y_i，D_ui＝A_i，其中A_i为某客户的特征变量，y_i为对应类别；y_i＝+1代表“欺诈”，y_i＝-1代表“非欺诈”；A为所有客户的特征变量组成的矩阵；

S2:对原始数据进行数据预处理和数据清洗；

S3：从D_p中随机抽出s％的样本作为间谍样本，并放入D_u中产生新的数据集和

S4：利用和作为两个类别训练逻辑回归模型，并用该逻辑回归模型对中的数据打分，即样本为正例的概率值，取D_u中分数低于设定阈值t的样本组成可靠负样本集D_n，可靠负样本集中样本对应标签y_i＝-1；

S5：用D_p和D_n，对应类别分别为y_i＝+1和y_i＝-1；训练随机森林模型，Posl为样本S＝(D_p∪D_n)中正样本的比例，使用bootstrap从S中抽取样本做训练集，最终约有的样本在训练集中，剩余的做验证集；

S6：将Posl分别设置为0.1-0.9，步长为0.1，对应每个Posl，使用训练集数据构造一棵树T_j，j＝1,2,...,9；构造一棵树T_j的步骤如下：

S61、从属性集合A中随机有放回抽样形成新的属性空间A′；

S62、对属性空间A′中的每个属性a_j，计算信息增益，|P|和|U|分别表示训练集中正样本个数和未标记样本个数，|P_node|和|U_node|分别表示节点数据中正样本个数和未标记样本个数，信息增益计算方法如下：

p_-1＝1-p₁

S63、具有最大信息增益的属性选作分割属性并从分割点伸展出子节点；

S64、对每个子节点重复步骤S61至步骤S63，直到树无法分裂生长完全；

S7：利用验证集数据从步骤S6产生的9棵树中找出最优树F；找出最优树的步骤如下：

S71:将T_j，j＝1,2,...,9分别作用于测试集上，计算测试集中正样本个数|P_v|，未标记样本个数|U_v|，假负数|FU_v|，以及假正数|FP_v|；

S72:计算评估指数：

S73:最小评估指数对应的树为最优树；

S8：重复步骤S5到步骤S7直到得到n棵最优树，集成后得到一个包含n棵树的随机森林，利用上述训练得到的随机森林，对银行客户数据进行输入预测，预测类别y_i＝+1的客户认定为高风险欺诈客户。

2.根据权利要求1所述的基于少量欺诈样本的银行高风险欺诈客户识别方法，其特征在于：步骤S2中所述的数据预处理和数据清洗包括：检查数据质量，清除重复数据和异常数据，填补解释变量A的缺失值并进行归一化，并将类别变量转化为数值型变量。

3.根据权利要求1所述的基于少量欺诈样本的银行高风险欺诈客户识别方法，其特征在于：步骤S4中的阈值t为15％。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳索信达数据技术有限公司，未经深圳索信达数据技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911235911.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q40-00 金融；保险；税务策略；公司或所得税的处理
G06Q40-02 .银行业，例如，利息计算、信贷审批、抵押、家庭银行或网上银行
G06Q40-04 .交易，例如，股票、商品、金融衍生工具或货币兑换
G06Q40-06 .投资，例如，金融工具、资产组合管理或者基金管理
G06Q40-08 .保险，例如，风险分析或养老金

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于少量欺诈样本的银行高风险欺诈客户识别方法有效

专利文献下载