[发明专利]一种商品税收编码的获取方法在审
申请号: | 201810273206.X | 申请日: | 2018-03-29 |
公开(公告)号: | CN108491887A | 公开(公告)日: | 2018-09-04 |
发明(设计)人: | 李海波;陆军;李正 | 申请(专利权)人: | 安徽航天信息有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30 |
代理公司: | 北京和信华成知识产权代理事务所(普通合伙) 11390 | 代理人: | 胡剑辉 |
地址: | 230000 安徽省合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 发票数据 税收 编码数据 错误分类 分类效果 过程处理 同步程序 增量学习 准确性能 错误率 加载 去噪 引擎 噪声 采集 转换 分类 保证 | ||
本发明公开了一种商品税收编码的获取方法,所述获取方法包括以下步骤:通过同步程序将电子底账中发票数据、商品税收编码数据同步至发票数据平台,每天同步新增数据;对电子底帐中的数据进行采集、去噪、转换、加载过程处理;基于spark引擎进行模型在线增量学习。本发明分类效果较好,错误率较低,能够保证税收编码的准确性能减少错误分类的数目,提高分类精度,而且适用于不可分的噪声情况。
技术领域
本发明属于税收领域,尤其涉及一种商品税收编码的获取方法。
背景技术
由于增值税专票和普票数据均在电子底账系统中,需要将数据同步至发票数据平台进行加载入库。目前现有的产品主要是运用贝叶斯算法,贝叶斯分类器的分类原理是利用各个类别的先验概率,再利用贝叶斯公式及独立性假设计算出属性的类别概率以及对象的后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类别。也就是根据历史数据求出商品对于税收分类编码的先验概率,然后计算出目前商品对于各编码的后验概率,根据概率大小判断该商品所属税收编码。
但是传统的算法具有以下缺点:
1)理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。。
2)需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
3)由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种商品税收编码的获取方法,保证税收编码的准确性。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种商品税收编码的获取方法,所述获取方法包括以下步骤:
步骤一:数据同步:通过同步程序将电子底账中发票数据、商品税收编码数据同步至发票数据平台,每天同步新增数据;
步骤二:数据处理:对电子底帐中的数据进行采集、去噪、转换、加载过程处理;
步骤三:基于spark引擎进行模型在线增量学习。
进一步地,所述步骤一中数据同步过程中,当模型成熟后停止数据同步,当编码有更新时开启数据同步。
进一步地,所述步骤二的数据处理在特征选出上采用降维的方式降低特征维度,剔除一定到噪声,处理步骤如下:
第一步:构建商品词库,然后对发票商品名称进行智能分词;
第二步:统计词频计算;
第三步:实施特征哈希。
进一步地,所述步骤三中在线增量学习的具体步骤为:
S1:以顺序的方式接收训练数据,然后学习第一批数据得到一个学习模型;
S2:得到第二批数据,依据模型或规则,做出决策,给出结果;
S3:根据真实的结果,修正模型权重向量W;
S4:然后再接收第三批数据,循环S2和S3步骤。
本发明的有益效果是:
本发明分类效果较好,错误率较低,能够保证税收编码的准确性能减少错误分类的数目,提高分类精度,而且适用于不可分的噪声情况。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽航天信息有限公司,未经安徽航天信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810273206.X/2.html,转载请声明来源钻瓜专利网。