[发明专利]基于少量欺诈样本的银行高风险欺诈客户识别方法有效
申请号: | 201911235911.1 | 申请日: | 2019-12-05 |
公开(公告)号: | CN111047428B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 杨颖一 | 申请(专利权)人: | 深圳索信达数据技术有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02 |
代理公司: | 深圳市千纳专利代理有限公司 44218 | 代理人: | 黄良宝 |
地址: | 518000 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 少量 欺诈 样本 银行 风险 客户 识别 方法 | ||
基于少量欺诈样本的银行高风险欺诈客户识别方法,涉及到银行管理系统中的客户数据处理技术领域,涉及到银行管理系统中的客户数据处理技术领域,解决现有的学习模型对大规模数据识别存在效率低的技术不足,步骤:S1:提取银行客户数据D;S2:对原始数据进行数据预处理和数据清洗;S3:从Dsubgt;p/subgt;中随机抽出s%的样本作为间谍样本,并放入Dsubgt;u/subgt;中产生新的数据集和;S4:利用和作为两个类别训练逻辑回归模型;S5:训练随机森林模型;S6:使用训练集数据构造一棵树;S7:利用验证集数据从步骤S6产生的9棵树中找出最优树F。S8:重复步骤S5到步骤S7直到得到n棵最优树。提高识别高风险客户的效率。
技术领域
本发明涉及到银行管理系统中的客户数据处理技术领域,具体涉及到对银行高风险欺诈客户信息识别方法改进方面。
背景技术
机器学习是一种重要的金融科技创新手段,近年来在国内外金融机构和金融科技企业中被尝试应用到风险防范、反欺诈等领域。逻辑回归、树模型等常被用于银行机构,针对大规模数据集挖掘深层次业务场景特征进而建立有监督、无监督等类型的学习模型,以提升欺诈识别能力。有监督模型能降低人工成本同时达到较稳定的效果,但对数据集要求高(标签准确且完整),无监督模型需要引入后续的数据分析,花费更多的人力成本。银行欺诈风险呈现出更加隐蔽、专业的特点,发展出更多的作案手法和表现形式。现今欺诈客户样本极具代表性,而剩余未标记欺诈的客户数据未必代表一定无欺诈行为,即未标记为欺诈样本中混杂着欺诈客户与未欺诈客户,如果每一条数据都用人工标记过于浪费成本。传统欺诈检测,例如依赖专家规则、黑名单库等方法,已经不能适应新的欺诈挑战。
发明内容
综上所述,本发明的目的在于解决现有的学习模型对大规模数据识别存在效率低,且容易出现存在欺诈客户未被发现的技术不足,而提出基于一种少量欺诈样本的银行高风险欺诈客户识别方法。
为解决本发明提出的技术问题,采用的技术方案为:
基于少量欺诈样本的银行高风险欺诈客户识别方法,其特征在于所述方法包括有如下步骤:
S1:提取银行客户数据D,D={Dp,Du},其中Dp表示已标记为“欺诈”的客户,Du表示未标记为“欺诈”的客户群体;Dpi=Ai,yi,Dui=Ai,其中Ai为某客户的特征变量,yi为对应类别;yi=+1代表“欺诈”,yi=-1代表“非欺诈”);A为所有客户的特征变量组成的矩阵;
S2:对原始数据进行数据预处理和数据清洗;
S3:从Dp中随机抽出s%的样本作为间谍样本,并放入Du中产生新的数据集和
S4:利用和作为两个类别训练逻辑回归模型,并用该逻辑回归模型对中的数据打分,即样本为正例的概率值,取Du中分数低于设定阈值t的样本组成可靠负样本集Dn,可靠负样本集中样本对应标签yi=-1;
S5:用Dp和Dn,对应类别分别为yi=+1和yi=-1;训练随机森林模型,Posl为样本S=(Dp∪Dn)中正样本的比例,使用bootstrap从S中抽取样本做训练集,最终约有的样本在训练集中,剩余的做验证集;
S6:将Posl分别设置为0.1-0.9,步长为0.1,对应每个Posl,使用训练集数据构造一棵树Tj,j=1...9
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳索信达数据技术有限公司,未经深圳索信达数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911235911.1/2.html,转载请声明来源钻瓜专利网。