[发明专利]一种基于关联规则的海关归类检错方法有效
申请号: | 201910068875.8 | 申请日: | 2019-01-24 |
公开(公告)号: | CN109858538B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 杨浩恩;束维国;郭磊;黄伟;陆军;乔启明 | 申请(专利权)人: | 科大国创软件股份有限公司 |
主分类号: | G06F18/24 | 分类号: | G06F18/24;G06Q50/26;G06Q40/10 |
代理公司: | 合肥洪雷知识产权代理事务所(普通合伙) 34164 | 代理人: | 孙小华 |
地址: | 230000 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关联 规则 海关 归类 检错 方法 | ||
本发明公开了一种基于关联规则的海关归类检错方法,涉及海关税务领域。本发明包括采用关联规则提速的词频统计算法,序列数据挖掘算法,针对海关数据所做的数据清洗规则以及根据海关实际问题的优化和阈值设计。本发明通过先验知识和数据处理方法提高了传统算法的准确性,并使用大数据技术将海关的海量数据用于模型的优化,使用过程中类似添加标准答案的方式,进一步提高数据的准确性。
技术领域
本发明属于海关税务领域,特别是涉及一种基于关联规则的海关归类检错方法。
背景技术
海关的报关货物要上交不同比例的税费,这些税费由税则号唯一确定,但是在实际生产生活中,由于公司本身对归类知识掌握不够透彻、每天的报关数据非常庞大、海关报关税则号核对人员不足等情况,使得国家通关税费的收取难以做到精准精确。
为了解决这一问题,提高错误归类的检错能力,我们设计出了基于大数据人工智能的海关归类检错算法。
在实际算法设计中,我们遇到了很多技术难题:
1.海关数据来自于各个不同的公司,每个公司申报税则号的格式和表示方法都不尽相同,所以要让算法真正理解报关数据的内容。
2.海关数据片断缺失严重,因为有不报,漏报,未知,免税商品等等问题,所以同一税则号下的数据结构都是不尽相同的。
3.海关的数据量非常巨大,对于数据处理速度和数据相应时间的高要求。
4.海关报关物品品类繁杂,有些商品的归类税则号还有所争议。
5.海关的数据也不能完全保证归类的正确性。
综上所述,设计一种基于关联规则的海关归类检错方法,以便克服上述技术问题,提高海关报关验核准确度的同时降低误报风险。
名词解释:
项集:令I={x1,x2,…,xm}为一组称为项(item)的元素的集合,集合称为项集(itemset);
频繁项集:大于给定阈值的项集。
发明内容
本发明的目的在于提供一种基于关联规则的海关归类检错方法,通过先验知识和数据处理方法提高了传统算法的准确性,并使用大数据技术将海关的海量数据用于模型的优化,添加标准答案的方式对数据进行评分,提高了海关数据归类准确性不足、海关数据盘容易丢死遗漏的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于关联规则的海关归类检错方法,包括如下步骤:
步骤S1:利用归类的税则读取需要的所有归类要素;
步骤S2:根据读取的归类要素,将每条数据归类到各个不同要素中;
其中,要素包括数据要素、二值要素和文本要素;
若数据归类到数据要素,则执行步骤S03;
若数据归类到二值要素,则执行步骤S04;
若数据归类到文本要素,则执行步骤S05;
步骤S3:将数据进行单位统一后与读取的要素规格进行匹配,若匹配不成功则直接报错;
步骤S4:判断数据取真还是取反,再与归类准则比对,若匹配不成功则直接报错;
步骤S5:根据文本数据的不同类别执行步骤S6;
步骤S6:根据每个序列,计算单个字对于序列个数的支持度,分布概率大于阈值的保存为频繁项集;
步骤S7:对于其中的子列需要满足如下条件:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大国创软件股份有限公司,未经科大国创软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910068875.8/2.html,转载请声明来源钻瓜专利网。