[发明专利]一种识别虚开发票企业的方法、装置及设备在审
申请号: | 201811455524.4 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109583978A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 祁海洋;史源源;王培勇;张帆 | 申请(专利权)人: | 税友软件集团股份有限公司 |
主分类号: | G06Q30/04 | 分类号: | G06Q30/04;G06Q40/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 310053 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 发票 概率 特征数据 计算机可读存储介质 机器学习模型 装置及设备 准确度 模型计算 叶子节点 决策树 分裂 | ||
本发明公开了一种识别虚开发票企业的方法,能获取待识别企业的特征数据,然后将特征数据输入预先训练得到的LightGBM模型,以便于该模型计算待识别企业为虚开发票企业的概率值,最后根据概率值判断待识别企业是否为虚开发票企业。可见,由于LightGBM模型是一种基于决策树的机器学习模型,采用最优的leaf‑wise策略分裂叶子节点,因此具备计算精度高计算速度快的特点,而本发明能够预先对该模型进行训练,使其能计算待识别企业为虚开发票企业的概率,最后根据概率得出识别结果,显著提升了识别的准确度和识别效率。此外,本发明还提供了一种识别虚开发票企业的装置、设备及计算机可读存储介质,其作用与上述方法相对应。
技术领域
本发明涉及金融科技领域,特别涉及一种识别虚开发票企业的方法、装置、设备及计算机可读存储介质。
背景技术
虚开发票,是指纳税单位或个人为了达到偷税的目的,或购货单位为了满足某种需要,在商品交易过程中开具发票时,在商品名称、商品数量、商品单价或金额采取弄虚作假的手法,虚构交易事项等行为。
目前,虚开发票是我国一种严重且普遍的经济犯罪行为,其行为侵蚀增值税税基,扰乱市场秩序,危害极大。国家及地方税务稽查部门对虚开发票这一问题还没有比较好的解决方法和措施,目前主要通过人工根据以往的业务经验来识别一个企业是否为虚开发票的企业,由于这个过程需要耗费大量的时间和人力,因此识别效率非常低,此外,由于判断一个企业是否虚开发票的条件复杂而隐晦,因此识别准确率也不理想。
发明内容
本发明的目的是提供一种识别虚开发票企业的方法、装置、设备及计算机可读存储介质,用以解决通过人工识别企业是否为虚开发票的企业的识别效率和识别准确率均较低的问题。
为解决上述技术问题,本发明提供了一种识别虚开发票企业的方法,包括:
获取待识别企业的特征数据;
将所述特征数据输入预先训练得到的LightGBM模型,以便于所述LightGBM模型根据所述特征数据计算所述待识别企业为虚开发票企业的概率值;
根据所述概率值判断所述待识别企业是否为虚开发票企业。
可选的,所述LightGBM模型的训练过程为:
预先选取多个企业特征;
利用决策树方法计算各个所述企业特征的重要程度,并筛选出重要程度最高的预设数量的目标企业特征;
将所述目标企业特征输入所述LightGBM模型,并利用交叉验证法对所述LightGBM模型进行训练。
可选的,所述利用交叉验证法对所述LightGBM模型进行训练,具体包括:
利用交叉验证法对所述LightGBM模型进行训练,确定各个所述目标企业特征的权重。
可选的,所述利用交叉验证法对所述LightGBM模型进行训练,具体包括:
从税局数据库分别获取合法纳税企业以及虚开发票企业的样本;
将所述样本按照预设比例划分为训练样本和测试样本;
根据所述训练样本和所述测试样本对所述LightGBM模型进行训练。
可选的,所述获取待识别企业的特征数据,具体包括:
获取待识别企业的预设时间粒度的特征数据,其中,所述特征数据的预设时间粒度为预先通过训练LightGBM模型确定的。
可选的,在所述根据所述概率值判断所述待识别企业是否为虚开发票企业之后,还包括:
对判定为虚开发票企业的企业进行验证,得到验证结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于税友软件集团股份有限公司,未经税友软件集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811455524.4/2.html,转载请声明来源钻瓜专利网。