[发明专利]金融欺诈检测中时间与成本特征选择方法、设备、介质在审
申请号: | 201811455148.9 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109767308A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 林颜双;陈鑫亚;南欧;何冲冲 | 申请(专利权)人: | 连连银通电子支付有限公司 |
主分类号: | G06Q40/00 | 分类号: | G06Q40/00;G06Q10/06 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 胡拥军;糜婧 |
地址: | 310000 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 金融欺诈 成本特征 金融数据 模型训练 损失函数 特征选择过程 匹配数据库 模型计算 匹配用户 特征选择 统计特征 用户标签 用户特征 第三方 最小化 冗余 检测 维度 主键 标签 筛选 学习 统计 | ||
1.金融欺诈检测中时间与成本特征选择方法,其特征在于包括以下步骤:
提取金融数据特征,从用户数据表中提取出用户的金融数据特征,对所述金融数据特征进行统计,得到统计特征,并对所述统计特征进行筛选,得到n维特征,通过用户主键匹配得到用户标签;
匹配时间与成本价值,匹配数据库中所述n维特征对应的成本价值和时间价值;
构建机器学习模型,将每个特征对应的成本价值和时间价值计入损失函数的一部分,以最小化所述损失函数为目标进行模型训练,将用户特征和用户标签作为模型的输入进行模型训练,得到机器学习模型;
计算特征重要性,通过所述机器学习模型计算每个特征的重要性,对每个特征对应的重要性进行排列,并进行固定维度的特征选择。
2.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法,其特征在于,所述提取金融数据特征步骤具体包括以下步骤:
提取n维特征,从数据库中的用户数据表中提取与用户相关的金融数据特征,通过统计所述金融数据特征的最大值、最小值、中位数、求和、均值、方差,得到统计特征,对所述统计特征进行清洗筛选,得到n维特征;
匹配用户标签,通过业务逻辑对用户进行标签标定,得到用户标签。
3.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法,其特征在于:所述匹配时间与成本价值步骤中,根据所述n维特征匹配数据库中的特征指标价格表和特征指标的时间价值表,获得特征对应的成本价值和时间价值。
4.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法,其特征在于:所述机器学习模型为LightGBM模型。
5.如权利要求4所述的金融欺诈检测中时间与成本特征选择方法,其特征在于,所述构建机器学习模型步骤具体包括以下步骤:
建立原损失函数,建立LightGBM模型的原损失函数,具体公式如下:
其中,代表决策树模型树的集合,共有K棵树(t1,…,tK),i∈[1,N]代表从第1个样本到第N个样本,L代表定义的误差函数,xi代表第i个样本的特征,每个样本有n维特征,yi代表第i个样本的标签,Ω代表衡量树结构好坏的函数,tk(xi)代表第k棵决策树关于第i个样本的输出;
所述定义的误差函数的具体公式如下:
所述衡量树结构好坏的函数的具体公式如下:
其中,T代表第k棵树的叶子个数,λ为参数,ω代表叶子的值;
建立新损失函数,建立LightGBM模型的新损失函数,具体公式如下:
其中,Ok代表第k次迭代需要优化的损失函数,i∈[1,N]代表从第1个样本到第N个样本,λ为参数,k代表第k次迭代,xi代表第i个样本的特征,每个样本有n维特征,Ψ(k,xi)是关于特征和树结构的代价函数,Ψc(k)是第k棵树中特征成本计算的函数;
Ψ(k,xi)的具体公式如下:
其中,代表第i个样本在前k棵树的评估代价函数,代表第i个样本在前k棵树的结构代价函数,C(k,i,m)代表在前k棵树中预测第i个样本是否用到特征m,是则C(k,i,m)=1,否则为C(k,i,m)=0,βm代表第m个特征的价格成本,μm代表第m个特征的时间价值,代表当前k次迭代中的第次迭代,代表第i个样本在第棵树中所属的叶子节点,代表第k棵树中从根节点走到xi所属的叶子节点需要经过的分裂节点个数;
Ψc(k)的具体公式如下:
其中,βm代表第m个特征的成本,μm代表第m个特征的时间价值,当特征m在第k棵树被使用时,D(k,m)=1,当特征m在第k棵树未被使用时,D(k,m)=0;
使用Tk-1(xi)附近的二阶泰勒公式近似Ok,具体公式如下:
其中,ΔΨ(xi)=Ψ(k,xi)-Ψ(k-1,xi),ΔΨc=Ψc(k)-Ψc(k-1);
其中,代表第k棵树中属于叶子节点l的样本集合,ωk,l代表第k棵树中叶子节点l的值,是关于ωk,l的二次函数,当时,损失函数取最小值;
训练LightGBM模型,将[Xi,yi],i∈[1,N]作为LightGBM模型的输入,迭代训练后LightGBM模型的输出对应样本的预测值Predicti,其中,i代表第i个样本,Xi代表第i个样本的n维特征向量,yi代表第i个样本的真实标签值,N代表样本总数,Predicti代表第i个样本的预测值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于连连银通电子支付有限公司,未经连连银通电子支付有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811455148.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:智能对帐系统
- 下一篇:一种获取发票查验信息的方法及系统