[发明专利]一种基于动态网络表征的发票虚开识别方法有效
申请号: | 201911066791.7 | 申请日: | 2019-11-04 |
公开(公告)号: | CN110852856B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 董博;郑庆华;范弘铖;田雨润;高宇达;袁靖松;阮建飞;张发 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06Q40/00 | 分类号: | G06Q40/00;G06Q50/26;G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 陈翠兰 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 网络 表征 发票 虚开 识别 方法 | ||
1.一种基于动态网络表征的发票虚开识别方法,其特征在于,首先,以企业为节点、交易记录为边,把企业交易信息组织成静态网络;其次,以每一天为时间节点建立企业交易网络的表征,建立长度为30天的时序窗口,在时序窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果;再次,借鉴了分布式优化算法,把表征的目标函数分解为独立子函数,并行优化子函数提高模型的学习效率;最后,基于LightGBM构建二分类器识别出发票虚开嫌疑企业;该方法具体包括以下实现步骤:
1)基本特征提取
首先对数据进行预处理,然后提取企业基本信息,企业基本信息大致分为三个类型:对文本型数据用word2vec算法转换为向量,对类别型数据用One-Hot编码,对数值型数据进行标准化处理;具体实现方法如下:
步骤101:数据预处理
(1)提取“纳税人电子档案号”,作为企业特征唯一标识;
(2)处理缺失值:数据缺失严重的属性和与发票虚开任务不相关的属性直接删去,有少量缺失的重要属性用同类均值插补的方法补全缺失值;
步骤102:处理文本型数据
对企业基本信息表中的文本信息处理包括:
(1)使用Jieba分词工具把企业的文本型数据进行分词;
(2)用词典树统计分词的结果,选择出权重较大的词作为关键词;
(3)基于word2vec将提取出来的N类关键词转成向量;
步骤103:处理标志型数据
对企业基本信息表中离散的类别型数据采用One-Hot编码;以属性取值的数量为长度建立状态位标志每一特定状态;
步骤104:处理数值型数据
对企业基本信息表中的数值型数据采用传统的标准化方法进行处理:
(1)求各属性的均值;
(2)求各属性的方差;
(3)Z-Score标准化;
2)基于动态网络表征的特征提取
提取企业基本特征后,以企业为节点,企业基本信息为节点属性,以交易记录为边,交易信息为边的属性,以每一天为时间节点,把企业交易信息组织成静态网络;然后以30天为单位建立时序窗口,在窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间的静态网络表征,优化网络表征的目标函数,最后得到最优的动态企业交易网络表征;具体实现方法如下:
步骤201:建立静态的企业交易网络
每一天都建立一个企业交易网络的表征模型,使得具有相似拓扑结构或者交易权重更高的企业在表征空间离得更近,目标优化函数为:
其中hi,hj是企业i,j的表征;wij是企业间交易的权重;最小化wij||hi-hj||2时,就迫使越大的交易权重wij对应的企业表征hi,hj越接近;
最小化目标得到企业交易网络表征h的优化结果;
步骤202:动态融合历史信息
建立一个长度为30天的时序窗口,在窗口内每次融合30天的静态网络表征,然后移动时序窗口,逐步融合所有静态网络表征,最终得到动态的企业交易网络表征,对应的优化目标是:
其中分别表示第t天的企业p,q的表征和企业间交易的权重,则表示企业p和企业q的表征的近似程度;Hi表示时序窗口内第i天的网络表征;惩罚项使表征学习到的矩阵尽量逼近原企业交易网络的矩阵,ρ是一个定义模型的结构特性和对原矩阵逼近程度贡献程度的参数,ρ越大模型越注重时序的网络表征,越小越注重节点的表征;
最小化目标得到优化后的动态企业交易网络表征H;
3)基于分布式的算法优化
为了提高动态网络表征的学习效率,借鉴分布式优化算法,把动态企业交易网络表征的目标函数分解为独立子函数,并行优化子函数加速了大规模复杂的企业交易网络表征的求解;
4)构建分类器识别发票虚开
基于LightGBM分类器构建二分类模型,把计算得到的动态网络表征作为分类器的学习数据,用已标记的企业样本集来训练模型,然后把需要进行预测的企业样本集的表征结果放入训练好的模型中进行预测,最后根据预测模型的输出确定目标企业是否存在发票虚开行为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911066791.7/1.html,转载请声明来源钻瓜专利网。