[发明专利]一种基于正例与未标注学习的发票虚开识别方法及系统有效
申请号: | 201910636175.4 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110532542B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 郑庆华;宓玲云;董博;阮建飞;吴映潮;李碧婷;张发 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62;G06Q40/00 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 李红霖 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于正例与未标注学习的发票虚开识别方法及系统。本发明包括步骤:首先,对纳税人基本信息中待挖掘的文本和非文本信息进行特征处理和编码处理;其次,将基本特征和网络特征合并作为特征空间,基于提出的循环多间谍负例标记方法在每轮迭代中从已标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集,并与剩余的正样本一起作为训练集训练二分类器,通过二分类器对所有的初步负样本集取交集得到最终的可靠的负样本集;然后,将挖掘出的可靠负样本与正样本作为训练集基于k近邻回归协同训练算法构建发票虚开预测模型;最后,将未标记的企业样本的特征输入至发票虚开预测模型以识别企业是否存在发票虚开行为。 | ||
搜索关键词: | 一种 基于 标注 学习 发票 虚开 识别 方法 系统 | ||
【主权项】:
1.一种基于正例与未标注学习的发票虚开识别方法,其特征在于,包括以下步骤:/n步骤一,企业特征提取模块对纳税人基本信息中待挖掘的文本和非文本信息进行特征处理和编码处理;/n步骤二,循环多间谍负例标记方法挖掘可靠负样本模块将基本特征和网络特征合并作为特征空间,基于提出的循环多间谍负例标记方法在每轮迭代中从已标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集,并与剩余的正样本一起作为训练集训练二分类器,用二分类器对间谍样本和未标记样本进行预测,选择间谍样本预测值中的最小值作为阈值,将预测值小于阈值的未标记样本作为负样本加入初步的负样本集,通过对所有的初步负样本集取交集得到最终的可靠的负样本集;/n步骤三,基于k近邻回归协同训练的模型构建模块将挖掘出的可靠负样本与正样本作为训练集基于k近邻回归协同训练算法构建发票虚开预测模型;/n步骤四,发票虚开行为识别模块将未标记的企业样本的特征后输入至发票虚开预测模型,以识别企业是否存在发票虚开行为。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910636175.4/,转载请声明来源钻瓜专利网。