[发明专利]一种基于多模组文本智能编码算法的海关进出口商品归类方法在审
申请号: | 202111235112.1 | 申请日: | 2021-10-22 |
公开(公告)号: | CN113947061A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 张强;周成杰;车超;周东生 | 申请(专利权)人: | 大连大学 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/247;G06F40/289;G06F40/30;G06F16/33;G06F16/35 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模组 文本 智能 编码 算法 海关 进出口商品 归类 方法 | ||
本发明提出了一种基于多模组文本智能编码算法的海关进出口商品归类方法,该多模组文本智能编码算法使用海关知识库,通过多组智能处理模块对海关进出口商品申报文本进行文本标准化,降低商品申报文本信息熵。之后使用编码逻辑将文本转变为随机码存储,既降低了信息存储空间,又可使用“同码‑异归类”逻辑查找归类异常的商品,其查验结果具有非常高的置信度。使用多模组的文本‑随机码转换逻辑,实现了在申报要素内容离散,商品属性文字描述不规范的前提下对海关进出口商品文本进行归类。提高了海关商品查验效率和效果的同时,降低了海量数据的存储规模。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于多模组文本智能编码算法的海关进出口商品归类方法。
背景技术
海关监管的主要对象是进出口商品,随着经济全球化,海关进出口商品的吞吐量不断增加,对进出口商品征税成为了海关部门的一项繁重的工作。商品征收税率取决于商品归类,目前中国海关主要使用人工归类进出口商品,关员通过海关系统根据商品的申报文本信息进行商品归类,进而计算征收税费。这种较为传统的方式费时费力,且仅能覆盖海量进出口商品的很少一部分。自然语言处理是一种专门研究文本表征的人工智能技术,可以通过对商品文本信息进行建模,构建文本高维空间特征向量,这些数字组成的特征向量承载了文本的语义、语序等信息,因此,计算机可以使用这些特征向量进行文本任务计算,对海关进出口商品归类任务提供算力支持。
现有辅助海关进出口商品归类预测的方法基本上基于数据库查找,近年来也有使用机器学习分类算法直接对进出口商品进行分类的案例。但是由于海关进出口申报文本相比较于普通中文文本,具有海关业务的高度专业性和报关单数据的不规范性,仅仅是简单自然语言处理技术中的算法直接移植使用,并不能起到很好的归类效果。与此同时,使用传统的规则库制定规则用于海关进出口商品归类,虽然可以根据业务逻辑构建底层逻辑,但是泛化性较弱,大数据量下制定规则难度极高。
发明内容
本申请的目的在于提供一种基于多模组文本智能编码算法的海关进出口商品归类方法,该方法实现了在申报要素内容离散、商品属性文字描述不规范的前提下对海关进出口商品文本进行归类,提高了海关商品归类异常查验效果。
海关商品查验的主要判定对象就是该商品的申报文本,判断目标则是该段商品申报文本的商品编号是否正确。商品编号是由10位数字组成的编号,代表着该商品在海关体系下的商品类别。申报文本是描述商品各个属性的文本集,属性名称的合集被称为“海关进出口商品申报要素目录”,该“要素目录”与商家填写的商品申报文本(要素内容)是一一对应的。使用商品编号的前4位可以定位出该商品需要填写具体内容的“要素目录”。
为实现上述目的,本申请的技术方案为:一种基于多模组文本智能编码算法的海关进出口商品归类方法,具体包括:
步骤1:对进出口商品申报文本进行数据清洗,按照商品编号前4位,定位进出口商品对应的“海关进出口商品申报要素目录”;
步骤2:按照所述“海关进出口商品申报要素目录”,对所述进出口商品申报文本进行拆分形成要素内容,该要素内容一一对应于“要素目录”,并对其进行排序;
步骤3:针对要素内容,通过关键词查找、独立词合并、同义词替换进行模块化的数据处理,得到要素文本;
步骤4:获取由字母与数字生成的随机码,将所述要素文本与所述随机码建立一一映射关系,把整条文本转化为编码结构信息;
步骤5:对所述编码结构信息,通过归并相同编码的商品申报文本,查找出具有不同商品编号的进出口商品申报文本,并认为其存在商品归类异常风险。
进一步的,所述步骤1使用正则表达式对进出口商品申报文本进行数据清洗。
进一步的,所述步骤2具体实现方式为:
步骤21.按照所述“海关进出口商品申报要素目录”,对所述进出口商品申报文本进行拆分,而后建立一一对应关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111235112.1/2.html,转载请声明来源钻瓜专利网。