[发明专利]基于动态边特征增强的图注意力网络的企业发票虚开检测方法在审

专利信息
申请号: 202010507242.5 申请日: 2020-06-05
公开(公告)号: CN111724241A 公开(公告)日: 2020-09-29
发明(设计)人: 董博;王伊杨;郑庆华;高宇达;阮建飞;王嘉祥 申请(专利权)人: 西安交通大学
主分类号: G06Q40/00 分类号: G06Q40/00;G06Q10/06;G06Q50/26;G06K9/62;G06N3/04;G06N3/08
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 闵岳峰
地址: 710049 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 动态 特征 增强 注意力 网络 企业 发票 虚开 检测 方法
【权利要求书】:

1.基于动态边特征增强的图注意力网络的企业发票虚开检测方法,其特征在于,首先,根据涉税数据构建动态企业交易网络并提取节点特征和边特征;其次,基于边特征增强的图注意力网络对每个时间段的交易网络特征进行提取;再次,使用LSTM提取时间序列特征,然后,利用深度神经网络构建发票虚开检测模型;再通过训练企业发票虚开检测模型调整网络参数;最后,利用训练好的发票虚开检测模型对纳税数据进行发票虚开检测。

2.根据权利要求1所述的基于动态边特征增强的图注意力网络的企业发票虚开检测方法,其特征在于,该方法具体实现方法如下:

1)构建动态企业交易网络并提取节点特征和边特征

企业交易网络是指用网络结构来表示企业间的交易关系,动态交易网络是指交易关系随时间变化而变化,导致网络结构也发生一系列变化的交易网络;

(1)构建动态企业交易网络

Step1.确定关键字段;首先对发票记录进行预处理,删除其中的异常记录,然后提取每条发票记录中的销方纳税人电子档案号、购方纳税人电子档案号以及开票时间,其中,销方纳税人电子档案号和购方纳税人电子档案号用于表示节点,开票时间用于划分交易网络;

Step2.确定时间跨度划分交易记录:找到开票时间字段的最大值和最小值,确定发票交易的阈值,将整个时间跨度划分为T等份,分别得到T个时间段的交易记录;

Step3.构建企业交易网络:基于无向图理论,通过将每个时间段的销方纳税人电子档案号和购方纳税人电子档案号合并去重得到总共的节点,用V来表示交易网络中的节点集合,即纳税企业的集合,用vi来表示一家纳税企业,其中vi∈V,i=1,…,N;N表示该交易网络中纳税企业的个数,其中N=|V|,将纳税企业的交易关系表示为交易网络的边,用E来表示;由于交易关系与时间有关,所以用Et表示时间t的企业交易关系,其中Et∈Rn×n,用ei,j,t来表示企业vi和企业vj在时间t发生了一笔交易,产生了交易网络的一条边,其中ei,j,t=(vi,vj,t)∈E;邻接矩阵At表示时间t的邻接矩阵,其中At∈Rn×n,矩阵中只包含两个元素0或者1,1表示两个企业之间存在交易边,0表示两个企业之间不存在交易边,即当ei,j,t∈Et时,Ai,j,t=1,当时,Ai,j,t=0;因此用G=(V,E)来表示交易网络;

(2)提取企业交易网络的节点特征

Step1.指标选取:从纳税人属性信息和纳税人财务报表筛选出相关指标,首先提取纳税人的基本信息;然后针对企业的经营范围信息本节选取了经营规模信息和经营物品信息;最后选取了一些通用的财务、税务指标;

Step2.特征预处理:Step1中选取的指标包含三部分:数值定性特征、数值定量特征和文本定性特征,数值定性特征首先经过数据补全,然后将每一个字段数据进行OneHot编码,转化为向量形式;数值定量特征首先经过缺失值补全,然后对每一个字段数据进行z-score标准化;

Step3.合并节点特征

将所有特征合并成矩阵的形式,矩阵的每一行代表一个节点的特征,将交易网络的节点特征表示为X,X∈Rn×d,其中n表示节点的个数,d表示节点特征的维度,xv∈Rd表示节点v的特征矩阵;

(3)提取企业交易网络的边特征

Step1.基于统计方法提取特征:基于统计方法提取的特征反映了交易序列的基本属性,提取发票记录字段的均值、方差、最大值、最小值、总和和中位数;

Step2.提取交易占比特征:交易占比特征反映了销购双方特定的交易分别在销购双方的比重,计算方法如下所示:

其中eij表示第i个节点和第j个节点之间的交易涉及的总交易额,aj表示的是第i个节点和第j个节点之间的交易额占节点j的总交易额的比重,同理ai表示的是第i个节点和第j个节点之间的交易额占节点i的总交易额的比重,计算过程首先计算一条边关联的总金额,然后计算关联的销购双方各自的总金额,最后分别求出占销方总金额的比例以及占购方总金额的比例,得到2维边特征;

Step3.提取销购交易税负特征:销购交易税负特征反映了销购双方的交易税负情况,计算方法如下所示:

其中tij表示第i个节点和第j个节点之间的交易涉及的总税额,通过计算一条边涉及的总税额占总金额的比例来得到交易税负值;

Step4.边特征合并

将Step1-Step3提取的边特征合并成矩阵的形式,将交易网络的边特征表示为Xe,表示t时刻的边特征矩阵,p表示边特征的维度,表示交易边(v,u)在t时刻的特征向量,并且X,,p,t∈Rn×n表示的是t时刻的边特征的一个通道;

2)利用边特征增强的图注意力网络提取每个时间段的交易网络特征,图注意力网络以下简称EGAT

(1)定义转换函数,节点相似度度量函数和影响因子函数

Step1.定义转化函数:g是一个转换函数,可以将节点的特征进行转换,如下所示:

其中l代表EAGT网络当前的层数,是t时刻第l层图注意力网络的输入,Wl是第l层网络学习的参数矩阵;

Step2.定义节点相似度度量函数:f是一个计算所连接节点之间相似度的函数,该函数产生一个N×N张量,其形式为:

其中,Ni表示节点i的邻居节点集合,即i,j∈Ni;注意力机制a是一个单层的前馈神经网络中连接层与层之间的权重矩阵;||表示拼接操作,.T表示的是转置操作;

Step3.定义影响因子函数:α是影响因子函数,生成N×N的向量,表示某一通道上每个节点受周围节点的影响因子,其形式如下所示:

其中,表示的是边特征的第p个通道;

(2)通过边特征增强的图注意力网络进行网络特征传播

每条边具有多维特征,每维特征组成一个通道,那么第l层的第p个通道的输出为:

其中,表示t时刻第l层图注意力网络的输入;表示t时刻第l层图注意力网络的边特征第p个通道的输入;g是一个转换函数,可以将节点的特征进行转换;α是影响因子函数,表示某一通道上每个节点受周围节点的影响因子;首先将输入经过转化函数gl进行转化,然后通过聚合该通道周围节点的信息从而得到最终的输出Z;在得到每个通道的输出之后,使用基于通道的注意力机制给每一个通过赋予不同的权重,将所有的输出聚合在一起,最终得到t时刻的输出,如下所示:

其中,β是通过将通道p的特征通过多层卷积得到一个值,然后对所有通道的值取softmax(.)得到的,β表示每个通道的权重,其计算如下式所示:

其中,softmax(.)是用于分类的激活函数,conv(.)是二维卷积;

3)通过LSTM获取时间序列特征

LSTM是一种RNN特殊的类型,可以学习长期依赖信息,通过步骤2)得到每个时刻的输出之后,将其输入到LSTM中得到时间特征:

LSTM(X1,X2,...,Xt)

其中Xt代表t时刻EGAT网络的输出;

4)利用深度神经网络实现发票虚开检测

将步骤3)得到的时序特征输入发票虚开检测分类器,用于检测纳税企业是否存在虚开发票行为;发票虚开检测分类器为全连接深度神经网络结构,构建发票虚开检测分类器的步骤包括:

(1)构建发票虚开检测分类器

发票虚开检测分类器为神经网络结构的模型,构建发票虚开检测分类器的步骤包括:

Step1.确定发票虚开检测分类器的输入层,输入层神经元数等于经由LSTM获取的时间特征的维度;

Step2.确定发票虚开检测分类器的输出层,因为发票虚开检测属于二分类问题,所以输出层神经元个数为1,输出层激活函数采用softmax,输出结果为区间[0,1]之间的概率值,用pi来表示;

Step3.确定发票虚开检测分类器的隐层,隐层采用全连接网络;

将步骤3)的执行结果输入深度神经网络输入层,得到最终的分类结果表达式为pi=FC(LSTM(X1,X2,...,Xt)),当pi≥0.5,表示存在发票虚开行为,当pi<0.5,表示不存在发票虚开行为;

(2)发票虚开检测模型的训练

Step1.初始化神经网络参数

神经网络参数的初始化,在网络层数很深的情况下避免产生梯度弥散,加快网络训练速度,参数初始化满足以下两个条件:各层激活值不会出现饱和现象以及各层激活值不为0;Xavier初始化帮助减少梯度弥散问题,使得信号在神经网络中可以传递得更深,所以网络参数初始化采用Xavier初始化,具体形式表示为:

其中,nin是参数所在层的输入维度,nout是参数所在层的输出维度,Wi,j是各个神经元之间的权重;

Step2.确定优化目标

训练分类器以正确分类纳税数据,分类器的分类效果由损失函数表示,损失函数越小代表分类器的分类效果越好;发票虚开检测分类器的输出层采用softmax(.)激活函数,训练网络以最小化交叉熵函数,优化目标见下:

其中,yi表示纳税企业i的标签值,虚开发票的纳税企业标签为1,未虚开发票的纳税企业标签为0;pi表示发票虚开检测分类器的输出,即纳税企业i存在发票虚开行为的概率;

Step3.使用BP算法调整模型的网络参数,学习过程由信号的正向传播与误差反向传播组成,过程包括:

a)正向传播时,输入纳税数据时序特征从发票虚开检测分类器的输入层传入,经过各隐层逐层处理后,传向发票虚开检测分类器的输出层;若发票虚开检测分类器的输出层的实际输出与对应标签值不相同,则转入误差的反向传播阶段;

b)误差反向传播是将发票虚开检测分类器的输出误差通过隐层向发票虚开检测分类器的输入层逐层反传,并将误差分摊给各层的所有单元,从而获得各层的误差信号,此误差信号作为修正单元权值的依据;

c)信号正向传播与误差反向传播的各层权值调整过程周而复始的进行,权值不断调整的过程,也就是网络学习训练的过程,此过程一直进行到网络输出的误差减少到可接受的程度,或进行到预先设定的学习次数为止;

5)企业发票虚开检测

把待检测的纳税数据经过步骤1)、2)、3)处理,将得到的纳税数据时序特征输入到发票虚开检测分类器中,然后根据发票虚开分类器的输出结果判断企业是否存在发票虚开行为。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010507242.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top