[发明专利]金融欺诈检测中时间与成本特征选择方法、设备、介质在审

专利信息
申请号: 201811455148.9 申请日: 2018-11-30
公开(公告)号: CN109767308A 公开(公告)日: 2019-05-17
发明(设计)人: 林颜双;陈鑫亚;南欧;何冲冲 申请(专利权)人: 连连银通电子支付有限公司
主分类号: G06Q40/00 分类号: G06Q40/00;G06Q10/06
代理公司: 广州市越秀区哲力专利商标事务所(普通合伙) 44288 代理人: 胡拥军;糜婧
地址: 310000 浙江省杭*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 金融欺诈 成本特征 金融数据 模型训练 损失函数 特征选择过程 匹配数据库 模型计算 匹配用户 特征选择 统计特征 用户标签 用户特征 第三方 最小化 冗余 检测 维度 主键 标签 筛选 学习 统计
【权利要求书】:

1.金融欺诈检测中时间与成本特征选择方法,其特征在于包括以下步骤:

提取金融数据特征,从用户数据表中提取出用户的金融数据特征,对所述金融数据特征进行统计,得到统计特征,并对所述统计特征进行筛选,得到n维特征,通过用户主键匹配得到用户标签;

匹配时间与成本价值,匹配数据库中所述n维特征对应的成本价值和时间价值;

构建机器学习模型,将每个特征对应的成本价值和时间价值计入损失函数的一部分,以最小化所述损失函数为目标进行模型训练,将用户特征和用户标签作为模型的输入进行模型训练,得到机器学习模型;

计算特征重要性,通过所述机器学习模型计算每个特征的重要性,对每个特征对应的重要性进行排列,并进行固定维度的特征选择。

2.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法,其特征在于,所述提取金融数据特征步骤具体包括以下步骤:

提取n维特征,从数据库中的用户数据表中提取与用户相关的金融数据特征,通过统计所述金融数据特征的最大值、最小值、中位数、求和、均值、方差,得到统计特征,对所述统计特征进行清洗筛选,得到n维特征;

匹配用户标签,通过业务逻辑对用户进行标签标定,得到用户标签。

3.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法,其特征在于:所述匹配时间与成本价值步骤中,根据所述n维特征匹配数据库中的特征指标价格表和特征指标的时间价值表,获得特征对应的成本价值和时间价值。

4.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法,其特征在于:所述机器学习模型为LightGBM模型。

5.如权利要求4所述的金融欺诈检测中时间与成本特征选择方法,其特征在于,所述构建机器学习模型步骤具体包括以下步骤:

建立原损失函数,建立LightGBM模型的原损失函数,具体公式如下:

其中,代表决策树模型树的集合,共有K棵树(t1,…,tK),i∈[1,N]代表从第1个样本到第N个样本,L代表定义的误差函数,xi代表第i个样本的特征,每个样本有n维特征,yi代表第i个样本的标签,Ω代表衡量树结构好坏的函数,tk(xi)代表第k棵决策树关于第i个样本的输出;

所述定义的误差函数的具体公式如下:

所述衡量树结构好坏的函数的具体公式如下:

其中,T代表第k棵树的叶子个数,λ为参数,ω代表叶子的值;

建立新损失函数,建立LightGBM模型的新损失函数,具体公式如下:

其中,Ok代表第k次迭代需要优化的损失函数,i∈[1,N]代表从第1个样本到第N个样本,λ为参数,k代表第k次迭代,xi代表第i个样本的特征,每个样本有n维特征,Ψ(k,xi)是关于特征和树结构的代价函数,Ψc(k)是第k棵树中特征成本计算的函数;

Ψ(k,xi)的具体公式如下:

其中,代表第i个样本在前k棵树的评估代价函数,代表第i个样本在前k棵树的结构代价函数,C(k,i,m)代表在前k棵树中预测第i个样本是否用到特征m,是则C(k,i,m)=1,否则为C(k,i,m)=0,βm代表第m个特征的价格成本,μm代表第m个特征的时间价值,代表当前k次迭代中的第次迭代,代表第i个样本在第棵树中所属的叶子节点,代表第k棵树中从根节点走到xi所属的叶子节点需要经过的分裂节点个数;

Ψc(k)的具体公式如下:

其中,βm代表第m个特征的成本,μm代表第m个特征的时间价值,当特征m在第k棵树被使用时,D(k,m)=1,当特征m在第k棵树未被使用时,D(k,m)=0;

使用Tk-1(xi)附近的二阶泰勒公式近似Ok,具体公式如下:

其中,ΔΨ(xi)=Ψ(k,xi)-Ψ(k-1,xi),ΔΨc=Ψc(k)-Ψc(k-1);

其中,代表第k棵树中属于叶子节点l的样本集合,ωk,l代表第k棵树中叶子节点l的值,是关于ωk,l的二次函数,当时,损失函数取最小值;

训练LightGBM模型,将[Xi,yi],i∈[1,N]作为LightGBM模型的输入,迭代训练后LightGBM模型的输出对应样本的预测值Predicti,其中,i代表第i个样本,Xi代表第i个样本的n维特征向量,yi代表第i个样本的真实标签值,N代表样本总数,Predicti代表第i个样本的预测值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于连连银通电子支付有限公司,未经连连银通电子支付有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811455148.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top