[发明专利]一种基于关键词算法的海关进出口商品文本异常查验方法在审
申请号: | 202111233369.3 | 申请日: | 2021-10-22 |
公开(公告)号: | CN113946656A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 张强;周成杰;车超;周东生 | 申请(专利权)人: | 大连大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/284 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键词 算法 海关 进出口商品 文本 异常 查验 方法 | ||
本发明公开了一种基于关键词算法的海关进出口商品文本异常查验方法,具体包括:对海关进出口商品申报文本进行数据预处理操作;通过商品编号前4位,定位出申报商品对应的海关进出口商品申报要素目录,按照所述要素目录对预处理后的海关进出口商品申报文本进行拆分形成要素内容,该要素内容一一对应于所述要素目录;利用TF‑IDF‑M算法对所述海关进出口商品申报文本进行关键词打分,通过所述关键词对申报文本进行标准化;加载要素目录互斥词库,针对单条所述海关进出口商品申报文本进行各要素间的互斥逻辑判定。本发明补充了海关现有进出口商品文本查验的不足之处,有效提高了海关进出口商品的查验效率,降低了人工负担。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于关键词算法的海关进出口商品文本异常查验方法。
背景技术
海关最主要的职能之一就是监管进出口商品与征收关税。而对商品进行征税操作时,海关的主要判定对象就是该商品的申报文本。申报文本是描述商品各个属性的文本集,属性名称的合集被称为“海关进出口商品申报要素目录”,“要素目录”与商家填写的商品申报文本(要素内容)是一一对应的。商品类别则被海关使用10位数字组成的商品编号标记,使用商品编号的前4位就可以定位出该商品需要填写具体内容的“要素目录”。在征收商品税的过程中,往往会出现商品申报文本错误导致的异常征税情况出现。海关现阶段在查验商品申报文本过程中,需要关员具有极强的海关业务能力和精确的判断能力,这需要多年的学习经验累计。近年来随着进出口商品吞吐量不断提高,审核关员的工作量急剧上升,如何高效准确的对进出口商品申报文本进行异常判断成为海关的重点关注问题。自然语言处理是一种可以挖掘文本数据之间存在的隐藏关系的研究,它可以通过历史数据挖掘出海关商品申报文本中有价值的信息,删繁为简,高速的对数据进行文本异常判断的同时,维持其判断精度在可接受范围内。
现有辅助海关进出口商品异常查验的方法大多是基于实物,或者是重点检查有过异常记录的商品类别。但是针对进出口商品申报文本内部直接进行逻辑异常检验的方法,还没有在海关领域中得以实现。通过对文本内联逻辑进行异常判断,可以在商品检验的第一阶段就识别出申报异常的商品文本信息,提高了商品审核速度,补充了辅助海关进出口商品异常查验方法中,针对文本本身的错误识别这一空缺。但是由于海关进出口商品申报文本不具有统一填写标准,未经过处理的文本很难通过计算机进行异常判断。
词频-逆文档频率算法(Term Frequency-Inverse Document Frequency,TF-IDF)是一种经典的提取文本关键词的算法,它可以过滤掉文本中词频高但重要程度低的词语,如介词、副词、语气词等,然后对其他词语做重要性打分。使用该算法可以对海关进出口商品申报文本提取出相应的关键词,进而通过使用关键词辅以知识库的方式进行文本内联逻辑判断。但是该算法在海关领域文本中使用,往往会过滤掉一些具有极强语义特征的专有名词,常见名词,导致后续任务精度下降。
发明内容
针对现有技术存在上述问题,本申请的目的在于提供一种基于关键词算法的海关进出口商品文本异常查验方法,其实现了在海关商品申报文本上的异常申报内容判定,有效提高了海关进出口商品的查验效率。
为实现上述目的,本申请的技术方案为:一种基于关键词算法的海关进出口商品文本异常查验方法,具体包括:
步骤1:对海关进出口商品申报文本进行数据预处理操作;
步骤2:通过商品编号前4位,定位出申报商品对应的海关进出口商品申报要素目录,按照所述要素目录对预处理后的海关进出口商品申报文本进行拆分形成要素内容,该要素内容一一对应于所述要素目录;
步骤3:利用TF-IDF-M算法对所述海关进出口商品申报文本进行关键词打分,通过所述关键词对申报文本进行标准化;
步骤4:加载要素目录互斥词库,针对单条所述海关进出口商品申报文本进行各要素间的互斥逻辑判定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111233369.3/2.html,转载请声明来源钻瓜专利网。