[发明专利]一种基于介科学的可解释性发票虚开检测方法在审
申请号: | 202211311760.5 | 申请日: | 2022-10-25 |
公开(公告)号: | CN115496571A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 郑庆华;董博;张浩堃;武乐飞;师斌;赵锐;王凯 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06Q40/00 | 分类号: | G06Q40/00;G06N5/04;G06V30/19;G06V30/412 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 闵岳峰 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 科学 解释性 发票 虚开 检测 方法 | ||
1.一种基于介科学的可解释性发票虚开检测方法,其特征在于,包括以下步骤:
S1,基于自注意力机制的税务交易动态图嵌入;首先将税务交易数据经过特征处理和特征嵌入等步骤转化为税务动态网络,税务动态网络保存了不同时间片企业之间的交易信息和其他的结构性信息;
S2,基于介科学的发票虚开数据系统中介区域的确定;根据介科学复杂数据系统建模理论,在税务动态交易网络中,“发票虚开”是发票虚开行为的主导因素,因此基于主导因素“发票流向”将税务网络的数据系统划分成不同的介区域;
S3,对划分出的介区域构建符号化可微编程的控制机制;在划分出的介区域的基础上,经过控制机制符号化表示及构建两个步骤来构建人工可参与的控制机制;
S4,通过耦合控制机制的计算与推理,检测企业是否存在发票虚开行为,同时生成跨区域的推理路径,为推理结果提供可解释的证据链,基于切比雪夫聚合的多目标进化算法对各个介区域推理步骤耦合形成的推理路径进行优化选取,最终选择一个最优解为推理结果提供证据。
2.根据权利要求1所述的一种基于介科学的可解释性发票虚开检测方法,其特征在于,步骤S1的具体实现方法为:
首先将税务交易数据转化为税务动态网络,用于下游数据推理,具体执行步骤如下:
Step1:特征预处理;对文本型特征,采用BERT训练语言模型,将其表示为词向量;对于类别型属性值采取One-Hot编码方式,将其表示为向量;对于数值型属性值采取标准化方法进行处理;最后将上述特征做拼接处理得到该企业的所有特征,对各个企业采取上述特征处理后得到企业的特征矩阵X;
Step2:定义一个税务动态图G={G1,G2,...,GT,},包含T个时刻的静态图,Gt={V,Et,X}是第t时刻的静态图;所有静态图共享一个节点集合即所有企业构成的集合,但是每个静态的图有各自的边集Et,X为步骤Step1构造的特征矩阵,由于边集不同,所以每个静态图有各自的邻接矩阵At用以表示企业之间的交易关系,如表示第t时刻,第i家企业和第j家企业没有发生交易;
Step3:基于自注意力机制的动态图嵌入;对于任一时刻的静态图GT={V,Et,X},对于节点v∈V,它的邻居节点集记作计算v对每个邻居u的注意力值:计算公式为:计算出节点v与所有邻居的注意力后,对注意力进行归一化:将节点v的邻居们的向量按照注意力来进行加权聚合,得到节点v的输出向量zv,计算公式为:此时这种聚合保留了节点v的局部结构信息;为了获得动态嵌入,基于自注意力机制计算节点v在每个时刻的新表示,该新表示要保存结点的随着时间变化的动态信息,记为具体计算过程为:1)计算任一时刻对所有时刻的注意力值,首先将节点v的所有时刻的特征分别映射到Query空间:XvWq、Key空间:XvWk;时刻i和时刻j的注意力值为:其中为缩放因子,为Query空间的维度数;为了实现任一时刻只注意其前的时刻,而无法注意其后时刻,为注意力值加上一个掩码值Mij,计算公式为:掩码后的注意力值为对其进行归一化处理2)以归一化后的注意力为权重,聚合所有时刻的特征,得到每个时刻的输出特征;首先,将节点v的所有时刻的特征根据注意力进行加权得到每个时刻的输出:Zv=βv(Xv);
通过这种方式学习得到的节点的表示保存图的动态结构信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211311760.5/1.html,转载请声明来源钻瓜专利网。