[发明专利]一种基于生成对抗网络的金融交易数据的欺诈检测方法有效

专利信息
申请号: 201910525239.3 申请日: 2019-06-18
公开(公告)号: CN110414780B 公开(公告)日: 2023-06-23
发明(设计)人: 章昭辉;蒋昌俊;王鹏伟;杨丽俊 申请(专利权)人: 东华大学
主分类号: G06Q10/0635 分类号: G06Q10/0635;G06Q40/03;G06Q40/04;G06F16/215;G06F16/2458
代理公司: 上海申汇专利代理有限公司 31001 代理人: 翁若莹;柏子雵
地址: 201600 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 生成 对抗 网络 金融交易 数据 欺诈 检测 方法
【权利要求书】:

1.一种基于生成对抗网络的金融交易数据的欺诈检测方法,其特征在于,包括以下步骤:

(1)建立需要生成的样本数据集

通过抽样的方法从交易负样本数据中抽取数据集,将数据集经过数据预处理后得到交易负样本数据集;

(2)建立基于LSTM-GAN模型的数据生成方法

LSTM-GAN模型为生成器和判别器的极大极小博弈,LSTM-GAN模型的LSTM层学习金融序列之间的特征关联,生成器通过与判别器对抗学习来覆盖实际数据分布,并且在目标函数中添加特征惩罚以确保生成结果受到约束;在生成器中,LSTM层与输入噪声分布连接,将输入噪声映射为交易间的特征关系,经过MLP层后,生成每一笔交易;在判别器中,LSTM层对输入进行侦测建模,将输入映射为特征向量,最后通过浅层神经网络,将标记为0和1的输入数据区分出来;LSTM-GAN模型训练完成后,通过saver.save函数将TensorFlow参数保存;

(3)建立基于数据分布和数据相关性的数据验证评估模型,将步骤(2)中得到的生成器生成的数据,作为模型结构的输入,多次抽样计算模型的综合评估得分,包括以下步骤:

S301、网络模型读取与数据生成

对于训练好的LSTM-GAN模型,通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中,还原得到生成器模型;抽样生成不同批的交易负样本数据;同时从原始负样本数据集中抽样得到同样大小的样本数据集;

S302、数据分布验证

对原始数据draw和生成数据dgen,寻找在样本空间上的连续函数,求不同分布的样本在连续函数f上的均值,均值作差,得到两个分布对应的均值差异mean discrepancy,找出使差值最小的函数f;均值差异mean discrepancy的值越小,两个分布越一致,公式表示为:f1=MMD2(Pr,Pg),式中,Pr是真实数据分布,Pg是生成数据分布,MMD2(·)表示最大评价差异;

S303、数据相关性验证

对于原始数据draw和生成数据dgen,计算其不同列之间的协方差矩阵S,然后计算其对应的相关系数矩阵Rr和Rg,寻找使两者差值DiffR最小函数;如果DiffR足够小,则认为两个分布的相关系数情况一致,公式表示为:

S304、综合计算

将步骤S302和步骤S303中结果加权求和,得到综合评估得分,公式表示为:w1表示S302中数据分布的权重,w2表示S303中数据相关性的权重;

(4)建立分类结构,将步骤(2)中模型最终生成的数据作为分类结构的输入,训练分类结构,得到交易数据的欺诈检测结果,包括以下步骤:

S401、数据集合成

对于训练好的LSTM-GAN模型,通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中,还原得到生成器模型;抽样生成不同批的交易负样本数据;将生成的数据与原始数据集合并得到新的平衡数据集;

S402、初始化模型

设置分类结构的模型结构,输入数据进入分类结构的处理层;

S403、训练模型

训练二分类模型,模型将在验证数据集上评估当前模型的检测性能,如果当前性能提升小于设定阈值,模型停止更新;

S404、检测结束,得到交易数据的欺诈检测结果。

2.如权利要求1所述的一种基于生成对抗网络的金融交易数据的欺诈检测方法,其特征在于,步骤(1)中,所述数据预处理包括以下步骤:

S101、划分数据集

将数据集中带标签样本划分为正样本、负样本,使用sql语句提取出负样本数据;

S102、数据清洗

删除多余的对构建模型无用的列属性,检查缺失数据,删除列中新的字符或其它的字符,删除空格,最后对数据标准化处理,消除变量之间不同数量级造成的数值之间的差异;

S103、返回得到的交易负样本数据集。

3.如权利要求1所述的一种基于生成对抗网络的金融交易数据的欺诈检测方法,其特征在于,步骤(2)包括以下步骤:

S201、数据输入

获取步骤(1)中预处理得到的交易负样本数据集,作为LSTM-GAN模型判别器结构的输入;随机获得服从高斯分布的噪声向量输入到生成器模型中;

S202、初始化LSTM-GAN模型

设置LSTM层和MLP层的层数、每层节点数、网络激活函数、梯度训练函数,对模型参数初始化后,构建初始的LSTM-GAN模型结构;

S203、目标优化

使用Wasserstein距离和特征惩罚优化目标函数,表示为:

判别器优化:

生成器优化:

特征惩罚:

式中,pdata表示真实数据分布,pz表示生成数据分布,x表示生成数据或样本数据,G(·)表示生成器函数,D(·)表示判别器函数,LSTM(z)表示长短期记忆网络,表示微分运算;

S204、训练模型

先优化辨别网络D,然后再来优化生成网络G模型单独交替迭代训练:在训练判别器网络时,固定住一个生成器网络,然后去训练;训练生成器网络时,固定住判别器网络,训练生成器参;在训练生成网络G的时候,判别辨别网络D的参数不发生变化,只是把loss回传,传到生成网络G后更新生成网络的参数即可;当生成器与判别器达到纳什均衡后,模型停止更新;

S205、网络模型保存

LSTM-GAN模型训练完成后,通过saver.save函数将TensorFlow参数保存。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910525239.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top