[发明专利]金融欺诈检测中时间与成本特征选择方法、设备、介质在审

申请号：	201811455148.9	申请日：	2018-11-30
公开（公告）号：	CN109767308A	公开（公告）日：	2019-05-17
发明（设计）人：	林颜双;陈鑫亚;南欧;何冲冲	申请（专利权）人：	连连银通电子支付有限公司
主分类号：	G06Q40/00	分类号：	G06Q40/00;G06Q10/06
代理公司：	广州市越秀区哲力专利商标事务所(普通合伙) 44288	代理人：	胡拥军;糜婧
地址：	310000 浙江省杭***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	金融欺诈成本特征金融数据模型训练损失函数特征选择过程匹配数据库模型计算匹配用户特征选择统计特征用户标签用户特征第三方最小化冗余检测维度主键标签筛选学习统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.金融欺诈检测中时间与成本特征选择方法，其特征在于包括以下步骤：

提取金融数据特征，从用户数据表中提取出用户的金融数据特征，对所述金融数据特征进行统计，得到统计特征，并对所述统计特征进行筛选，得到n维特征，通过用户主键匹配得到用户标签；

匹配时间与成本价值，匹配数据库中所述n维特征对应的成本价值和时间价值；

构建机器学习模型，将每个特征对应的成本价值和时间价值计入损失函数的一部分，以最小化所述损失函数为目标进行模型训练，将用户特征和用户标签作为模型的输入进行模型训练，得到机器学习模型；

计算特征重要性，通过所述机器学习模型计算每个特征的重要性，对每个特征对应的重要性进行排列，并进行固定维度的特征选择。

2.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法，其特征在于，所述提取金融数据特征步骤具体包括以下步骤：

提取n维特征，从数据库中的用户数据表中提取与用户相关的金融数据特征，通过统计所述金融数据特征的最大值、最小值、中位数、求和、均值、方差，得到统计特征，对所述统计特征进行清洗筛选，得到n维特征；

匹配用户标签，通过业务逻辑对用户进行标签标定，得到用户标签。

3.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法，其特征在于：所述匹配时间与成本价值步骤中，根据所述n维特征匹配数据库中的特征指标价格表和特征指标的时间价值表，获得特征对应的成本价值和时间价值。

4.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法，其特征在于：所述机器学习模型为LightGBM模型。

5.如权利要求4所述的金融欺诈检测中时间与成本特征选择方法，其特征在于，所述构建机器学习模型步骤具体包括以下步骤：

建立原损失函数，建立LightGBM模型的原损失函数，具体公式如下：

其中，代表决策树模型树的集合，共有K棵树(t₁,…,t_K),i∈[1,N]代表从第1个样本到第N个样本，L代表定义的误差函数，x_i代表第i个样本的特征，每个样本有n维特征，y_i代表第i个样本的标签，Ω代表衡量树结构好坏的函数，t_k(x_i)代表第k棵决策树关于第i个样本的输出；

所述定义的误差函数的具体公式如下：

所述衡量树结构好坏的函数的具体公式如下：

其中，T代表第k棵树的叶子个数,λ为参数,ω代表叶子的值；

建立新损失函数，建立LightGBM模型的新损失函数，具体公式如下：

其中，O_k代表第k次迭代需要优化的损失函数，i∈[1,N]代表从第1个样本到第N个样本,λ为参数,k代表第k次迭代，x_i代表第i个样本的特征，每个样本有n维特征,Ψ(k,x_i)是关于特征和树结构的代价函数，Ψ_c(k)是第k棵树中特征成本计算的函数；

Ψ(k,x_i)的具体公式如下：

其中，代表第i个样本在前k棵树的评估代价函数，代表第i个样本在前k棵树的结构代价函数，C(k,i,m)代表在前k棵树中预测第i个样本是否用到特征m，是则C(k,i,m)＝1，否则为C(k,i,m)＝0，β_m代表第m个特征的价格成本，μ_m代表第m个特征的时间价值,代表当前k次迭代中的第次迭代，代表第i个样本在第棵树中所属的叶子节点，代表第k棵树中从根节点走到x_i所属的叶子节点需要经过的分裂节点个数；

Ψ_c(k)的具体公式如下：

其中，β_m代表第m个特征的成本，μ_m代表第m个特征的时间价值，当特征m在第k棵树被使用时，D(k,m)＝1，当特征m在第k棵树未被使用时，D(k,m)＝0；

使用T_k-1(x_i)附近的二阶泰勒公式近似O_k，具体公式如下：

其中，ΔΨ(x_i)＝Ψ(k,x_i)-Ψ(k-1,x_i),ΔΨ_c＝Ψ_c(k)-Ψ_c(k-1)；

其中，代表第k棵树中属于叶子节点l的样本集合，ω_k,l代表第k棵树中叶子节点l的值，是关于ω_k,l的二次函数，当时，损失函数取最小值；

训练LightGBM模型，将[X_i,y_i],i∈[1,N]作为LightGBM模型的输入，迭代训练后LightGBM模型的输出对应样本的预测值Predict_i，其中，i代表第i个样本，X_i代表第i个样本的n维特征向量，y_i代表第i个样本的真实标签值，N代表样本总数,Predict_i代表第i个样本的预测值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于连连银通电子支付有限公司，未经连连银通电子支付有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811455148.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q40-00 金融；保险；税务策略；公司或所得税的处理
G06Q40-02 .银行业，例如，利息计算、信贷审批、抵押、家庭银行或网上银行
G06Q40-04 .交易，例如，股票、商品、金融衍生工具或货币兑换
G06Q40-06 .投资，例如，金融工具、资产组合管理或者基金管理
G06Q40-08 .保险，例如，风险分析或养老金

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]金融欺诈检测中时间与成本特征选择方法、设备、介质在审

专利文献下载