[发明专利]一种基于正例与未标注学习的发票虚开识别方法及系统有效
申请号: | 201910636175.4 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110532542B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 郑庆华;宓玲云;董博;阮建飞;吴映潮;李碧婷;张发 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62;G06Q40/00 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 李红霖 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标注 学习 发票 虚开 识别 方法 系统 | ||
1.一种基于正例与未标注学习的发票虚开识别方法,其特征在于,包括以下步骤:
步骤一,企业特征提取模块对纳税人基本信息中待挖掘的文本和非文本信息进行特征处理和编码处理;具体包括如下实现步骤:
对企业特征提取,企业特征分为基本特征和交易网络特征,其中:
(1)企业基本特征提取
企业基本信息的数据为三个类别:文本型数据、标志型数据和数值型数据;企业基本特征提取的具体步骤如下:
1)处理文本型数据
对企业基本信息表中的文本信息进行数据的预处理并进行特征提取;纳税人文本特征处理包括:
步骤1:使用Jieba分词工具进行分词;
步骤2:构建停用表,将文本的停用词去掉;
步骤3:计算语料库中不同类别文本的所占比例,等比例地从其中提取关键词汇;
步骤4:将步骤3提取出来的N类关键词转成词向量构成一个N维的空间,每一个文本字段对应一个N维的向量,然后将所有的N维中文向量转化成可用于计算的N维数值向量;
2)处理类别型数据
对企业基本信息表中的类别型数据进行预处理并提取特征;对于此类离散型的数据采用One-Hot编码;对于任意离散型数据特征,设数据共具有N种离散值,那么对于该数据对应的特征就有N个状态位,One-Hot编码将这N个状态位中的一位表示为1,其他位均表示成为0;一个特征值由N-1位0和一位1表示,确保只有一位有效;
3)处理数值型数据
对企业基本信息表中的数值型数据采用传统的标准化方法其进行处理,具体步骤为:
步骤1:获取各个属性的均值
记u=(u1,u2,...,um)为均值向量,其中m表示数值型属性的种类数,ui表示第i个数值型属性的均值,其具体的计算形式为:
其中,n表示企业基本信息样本的数量,表示第i个样本的第j个数值型属性取值;
步骤2:获取各个属性的方差
记σ=(σ1,σ2,...,σm)为各个数值型属性的方差,其中m表示数值型属性的种类数,σi表示第i个数值型属性的方差,σi的具体形式为:
均值和方差是数值型属性的基本指标,通过均值和方差可对数值型属性做标准化处理;
(2)企业交易网络特征提取
发票信息具有购方、销方双方企业的纳税人电子档案号、行业、登记注册类型以及交易的金额、税额信息,包含着企业之间潜在的关联信息;以发票的销方和购方分别作为节点,以每条发票记录作为一条边,边的方向由销方指向购方,形成一个有向的交易图;交易网络特征的提取运用了网络表征学习的node2vec算法;该node2vec算法包括两个部分,随机游走和word2Vec;
具体步骤见下:
步骤1:针对每一条发票信息,将信息中的销方和购方作为节点,并将企业基本信息作为节点的属性,形成一条由销方指向购方的边,发票的其他信息作为边上所携带的属性信息,形成一个交易网络图G(V,E),其中V表示节点的集合,E表示边的集合;
步骤2:将交易网络图G作为node2vec的算法的输入,设置随机游走的步长为30;以每个企业节点为起点,在相连的企业节点中随机选择下一个企业节点,形成一条路线,每条路线包括30个连通的企业节点;
步骤3:将每个企业节点当成一个词,每条路线当成一句话,使用word2vec算法得到企业节点的64维特征表示;
步骤二,循环多间谍负例标记方法挖掘可靠负样本模块将基本特征和网络特征合并作为特征空间,基于提出的循环多间谍负例标记方法在每轮迭代中从已标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集,并与剩余的正样本一起作为训练集训练二分类器,用二分类器对间谍样本和未标记样本进行预测,选择间谍样本预测值中的最小值作为阈值,将预测值小于阈值的未标记样本作为负样本加入初步的负样本集,通过对所有的初步负样本集取交集得到最终的可靠的负样本集;
步骤三,基于k近邻回归协同训练的模型构建模块将挖掘出的可靠负样本与正样本作为训练集基于k近邻回归协同训练算法构建发票虚开预测模型;
步骤四,发票虚开行为识别模块将未标记的企业样本的特征后输入至发票虚开预测模型,以识别企业是否存在发票虚开行为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910636175.4/1.html,转载请声明来源钻瓜专利网。