[发明专利]识别异常纳税行为的方法有效
申请号: | 201911397878.2 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111192128B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 刘芬;王志刚 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06Q40/12 | 分类号: | G06Q40/12;G06F16/33;G06F40/295 |
代理公司: | 北京思创大成知识产权代理有限公司 11614 | 代理人: | 高爽 |
地址: | 100195 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 异常 纳税 行为 方法 | ||
本公开实施例公开了一种识别异常纳税行为的方法,包括:基于每个销项商品的汇总金额在所有销项商品的汇总金额的占比,获取主销商品列表;基于每个进项商品的汇总金额在所有进项商品的汇总金额的占比,获取主购商品列表;基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果;基于所述第一处理结果,判断纳税行为是否异常。达到提高异常纳税行为识别效率的目的。
技术领域
本公开属于信息技术领域,更具体地,涉及一种识别异常纳税行为的方法。
背景技术
基于增值税发票货物明细数据,通过分析进销项商品来识别“销售不实,抵扣不符,虚开发票”等异常行为,是税收风险防控的重要手段。然而,商品名称的多样性、复杂性,以及填写不规范,导致同一种商品实体和相似商品的识别十分困难。此外,生产类或加工类企业的进销项商品之间存在巨大差异,导致无法直接通过衡量进销项商品名称的相似程度来判别是否异常。现有方法多基于商品编码或者简单的商品名称相似度来计算进销项商品的差异程度,进而识别异常纳税行为。但商品编码和商品名称多对多的性质,以及简单的商品名称相似度计算方法,往往使分析存在准确性和全面性欠缺的问题。现有的异常纳税行为识别存在效率和准确性低的问题。
发明内容
有鉴于此,本公开实施例提供了一种识别异常纳税行为的方法,至少解决现有技术中异常纳税行为识别存在效率和准确性低的问题。
第一方面,本公开实施例提供了一种识别异常纳税行为的方法,包括:
基于每个销项商品的汇总金额在所有销项商品的汇总金额的占比,获取主销商品列表;
基于每个进项商品的汇总金额在所有进项商品的汇总金额的占比,获取主购商品列表;
基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果;
基于所述第一处理结果,判断纳税行为是否异常。
可选的,所述基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到处理结果的步骤之前或之后,还包括:
判断所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称是否在关联分析得到的组合实体词库内,判断纳税行为是否异常。
可选的,所述基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果,包括:
对所述主销商品名称和主购商品名称进行分词,并提取实体词;
利用获取的词向量资源,获取提取的实体词的词向量;
基于所述词向量计算实体词之间的余弦相似度;
对于每组商品,取所有实体词余弦相似度的最大值作为该组商品的商品名称相似度,所述每组商品包括一进项商品和一销项商品;
将所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称组合,形成多组商品,计算每组商品的商品名称相似度;
选取最大的商品名称相似度作为进销项商品相似度;
判断所述进销项商品相似度与第一设定阈值的大小。
可选的,所述基于所述词向量计算实体词之间的余弦相似度中,所述余弦相似度的计算公式为:
其中和为实体词的词向量,||a||和||b||分别为向量和向量的模。
可选的,若进销项商品相似度大于第一设置阈值,则认为纳税行为正常;
否则,则认为纳税行为异常。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911397878.2/2.html,转载请声明来源钻瓜专利网。