[发明专利]一种基于正例与未标注学习的发票虚开识别方法及系统有效
申请号: | 201910636175.4 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110532542B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 郑庆华;宓玲云;董博;阮建飞;吴映潮;李碧婷;张发 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62;G06Q40/00 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 李红霖 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标注 学习 发票 虚开 识别 方法 系统 | ||
本发明公开了一种基于正例与未标注学习的发票虚开识别方法及系统。本发明包括步骤:首先,对纳税人基本信息中待挖掘的文本和非文本信息进行特征处理和编码处理;其次,将基本特征和网络特征合并作为特征空间,基于提出的循环多间谍负例标记方法在每轮迭代中从已标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集,并与剩余的正样本一起作为训练集训练二分类器,通过二分类器对所有的初步负样本集取交集得到最终的可靠的负样本集;然后,将挖掘出的可靠负样本与正样本作为训练集基于k近邻回归协同训练算法构建发票虚开预测模型;最后,将未标记的企业样本的特征输入至发票虚开预测模型以识别企业是否存在发票虚开行为。
技术领域
本发明属于税控技术领域,特别涉及一种基于正例与未标记学习(Positive-Unlabeled learning,简称PU learning)的发票虚开识别方法及系统。
背景技术
发票虚开指不如实开具发票的一种舞弊行为,纳税单位和个人为了达到偷税的目的,在 商品名称、数量名称、商品单价以及金额上采取弄虚作假的手段,甚至利用比较熟悉的关系, 虚构交易事项虚开发票。
由于发票本身是真的,仅通过查验发票真伪无法发现虚开问题,仅能依靠税务稽查人员 的经验,根据有限的票面信息,人工地对发票是否涉及虚开、企业是否存在与虚开行为相关 的异常行为来进行分析判断。然而,随着发票数据规模的不断增长,单纯依靠税务稽查人员 人工识别发票虚开行为变得不切实际,存在工作量大、效率低下、考虑信息不全面、识别滞 后的难题。
针对面临的这一难题,以下文献提供了可参考的基于机器学习自动识别存在虚开行为企 业的相关技术方案:
文献1.一种发票虚开企业监控识别方法及系统(201611220015.4);
文献2.一种基于并行环路检测的虚开增值税专用发票检测方法(201710147850.8);
文献3.一种基于并行关联规则挖掘的发票虚开识别方法(201810436908.5);
文献1利用决策树算法和样本集进行相应的模型训练,创建企业类型预测模型,提取目 标企业的特征信息,并将其输入至企业类型预测模型,以企业类型预测结果确定目标企业的 企业类型是否为虚开发票企业。
文献2基于分布式并行计算方法对环路检测进行了改进,改进的环路检测方法将计算任 务分配给分布式集群中的多台计算机中,最终通过改进环路检测的方法来进行虚开增值税专 用发票检测。
文献3首先提取所需会计期间内的发票记录,构建事务集;其次对不同行业明细的事务 子集分别挖掘频繁项集,生成关联规则;最后,基于不同行业明细的关联规则,计算企业的 自洽性,并通过自洽性计算结果识别存在发票虚开行为的企业。
以上文献所述方法主要存在以下问题:文献1依赖于已标记样本集,在实际的虚开发票 行为检测中,无法通过先验知识获取非虚开企业的样本(负样本),仅能通过启发式规则获取 少量的存在发票虚开行为的企业名单(正样本),传统的机器学习无法训练有效的预测模型; 文献2仅能检测资金经过多个账户后重新回到源账户的虚开发票行为,而发票虚开具有多种 形式,资金流向不一定构成环路,该方法的识别类型过于单一,模型的泛化能力较差;文献 3仅利用了企业的基本信息和发票信息构建模型去检测虚开发票的行为,而忽略了发票信息 之间关联的网络信息,而现实中的发票虚开往往存在上下游关联甚至团伙关联,网络的拓扑 信息对这类虚开行为有很重要的参考价值,忽略这些关联的网络信息会使模型的准确率下降。
发明内容
为了克服上述现有技术的不足,本发明的目的在于提出一种基于正例与未标注学习的发 票虚开识别方法及系统。
本发明采用如下技术方案来实现的:
一种基于正例与未标注学习的发票虚开识别方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910636175.4/2.html,转载请声明来源钻瓜专利网。