[发明专利]一种基于生成对抗网络的金融交易数据的欺诈检测方法有效
申请号: | 201910525239.3 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110414780B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 章昭辉;蒋昌俊;王鹏伟;杨丽俊 | 申请(专利权)人: | 东华大学 |
主分类号: | G06Q10/0635 | 分类号: | G06Q10/0635;G06Q40/03;G06Q40/04;G06F16/215;G06F16/2458 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;柏子雵 |
地址: | 201600 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 金融交易 数据 欺诈 检测 方法 | ||
1.一种基于生成对抗网络的金融交易数据的欺诈检测方法,其特征在于,包括以下步骤:
(1)建立需要生成的样本数据集
通过抽样的方法从交易负样本数据中抽取数据集,将数据集经过数据预处理后得到交易负样本数据集;
(2)建立基于LSTM-GAN模型的数据生成方法
LSTM-GAN模型为生成器和判别器的极大极小博弈,LSTM-GAN模型的LSTM层学习金融序列之间的特征关联,生成器通过与判别器对抗学习来覆盖实际数据分布,并且在目标函数中添加特征惩罚以确保生成结果受到约束;在生成器中,LSTM层与输入噪声分布连接,将输入噪声映射为交易间的特征关系,经过MLP层后,生成每一笔交易;在判别器中,LSTM层对输入进行侦测建模,将输入映射为特征向量,最后通过浅层神经网络,将标记为0和1的输入数据区分出来;LSTM-GAN模型训练完成后,通过saver.save函数将TensorFlow参数保存;
(3)建立基于数据分布和数据相关性的数据验证评估模型,将步骤(2)中得到的生成器生成的数据,作为模型结构的输入,多次抽样计算模型的综合评估得分,包括以下步骤:
S301、网络模型读取与数据生成
对于训练好的LSTM-GAN模型,通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中,还原得到生成器模型;抽样生成不同批的交易负样本数据;同时从原始负样本数据集中抽样得到同样大小的样本数据集;
S302、数据分布验证
对原始数据draw和生成数据dgen,寻找在样本空间上的连续函数,求不同分布的样本在连续函数f上的均值,均值作差,得到两个分布对应的均值差异mean discrepancy,找出使差值最小的函数f;均值差异mean discrepancy的值越小,两个分布越一致,公式表示为:f1=MMD2(Pr,Pg),式中,Pr是真实数据分布,Pg是生成数据分布,MMD2(·)表示最大评价差异;
S303、数据相关性验证
对于原始数据draw和生成数据dgen,计算其不同列之间的协方差矩阵S,然后计算其对应的相关系数矩阵Rr和Rg,寻找使两者差值DiffR最小函数;如果DiffR足够小,则认为两个分布的相关系数情况一致,公式表示为:
S304、综合计算
将步骤S302和步骤S303中结果加权求和,得到综合评估得分,公式表示为:w1表示S302中数据分布的权重,w2表示S303中数据相关性的权重;
(4)建立分类结构,将步骤(2)中模型最终生成的数据作为分类结构的输入,训练分类结构,得到交易数据的欺诈检测结果,包括以下步骤:
S401、数据集合成
对于训练好的LSTM-GAN模型,通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中,还原得到生成器模型;抽样生成不同批的交易负样本数据;将生成的数据与原始数据集合并得到新的平衡数据集;
S402、初始化模型
设置分类结构的模型结构,输入数据进入分类结构的处理层;
S403、训练模型
训练二分类模型,模型将在验证数据集上评估当前模型的检测性能,如果当前性能提升小于设定阈值,模型停止更新;
S404、检测结束,得到交易数据的欺诈检测结果。
2.如权利要求1所述的一种基于生成对抗网络的金融交易数据的欺诈检测方法,其特征在于,步骤(1)中,所述数据预处理包括以下步骤:
S101、划分数据集
将数据集中带标签样本划分为正样本、负样本,使用sql语句提取出负样本数据;
S102、数据清洗
删除多余的对构建模型无用的列属性,检查缺失数据,删除列中新的字符或其它的字符,删除空格,最后对数据标准化处理,消除变量之间不同数量级造成的数值之间的差异;
S103、返回得到的交易负样本数据集。
3.如权利要求1所述的一种基于生成对抗网络的金融交易数据的欺诈检测方法,其特征在于,步骤(2)包括以下步骤:
S201、数据输入
获取步骤(1)中预处理得到的交易负样本数据集,作为LSTM-GAN模型判别器结构的输入;随机获得服从高斯分布的噪声向量输入到生成器模型中;
S202、初始化LSTM-GAN模型
设置LSTM层和MLP层的层数、每层节点数、网络激活函数、梯度训练函数,对模型参数初始化后,构建初始的LSTM-GAN模型结构;
S203、目标优化
使用Wasserstein距离和特征惩罚优化目标函数,表示为:
判别器优化:
生成器优化:
特征惩罚:
式中,pdata表示真实数据分布,pz表示生成数据分布,x表示生成数据或样本数据,G(·)表示生成器函数,D(·)表示判别器函数,LSTM(z)表示长短期记忆网络,表示微分运算;
S204、训练模型
先优化辨别网络D,然后再来优化生成网络G模型单独交替迭代训练:在训练判别器网络时,固定住一个生成器网络,然后去训练;训练生成器网络时,固定住判别器网络,训练生成器参;在训练生成网络G的时候,判别辨别网络D的参数不发生变化,只是把loss回传,传到生成网络G后更新生成网络的参数即可;当生成器与判别器达到纳什均衡后,模型停止更新;
S205、网络模型保存
LSTM-GAN模型训练完成后,通过saver.save函数将TensorFlow参数保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910525239.3/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理