[发明专利]一种基于关键词算法的海关进出口商品文本异常查验方法在审
申请号: | 202111233369.3 | 申请日: | 2021-10-22 |
公开(公告)号: | CN113946656A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 张强;周成杰;车超;周东生 | 申请(专利权)人: | 大连大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/284 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键词 算法 海关 进出口商品 文本 异常 查验 方法 | ||
1.一种基于关键词算法的海关进出口商品文本异常查验方法,其特征在于,具体包括:
步骤1:对海关进出口商品申报文本进行数据预处理操作;
步骤2:通过商品编号前4位,定位出申报商品对应的海关进出口商品申报要素目录,按照所述要素目录对预处理后的海关进出口商品申报文本进行拆分形成要素内容,该要素内容一一对应于所述要素目录;
步骤3:利用TF-IDF-M算法对所述海关进出口商品申报文本进行关键词打分,通过所述关键词对申报文本进行标准化;
步骤4:加载要素目录互斥词库,针对单条所述海关进出口商品申报文本进行各要素间的互斥逻辑判定。
2.根据权利要求1所述一种基于关键词算法的海关进出口商品文本异常查验方法,其特征在于,所述步骤1通过正则表达式,将所述海关进出口商品申报文本中的所有小写字母转变成大写字母;删掉中文空格,保留英文空格;所有全角字符转成半角字符。
3.根据权利要求1所述一种基于关键词算法的海关进出口商品文本异常查验方法,其特征在于,所述步骤2具体实现方式为:通过商品编号前4位在数据库中定位当前商品的海关进出口商品申报要素目录,然后将预处理后的申报文本按照所述要素目录拆分成单独的要素内容,对所述要素内容和要素目录建立一一对应的关系。
4.根据权利要求1所述一种基于关键词算法的海关进出口商品文本异常查验方法,其特征在于,所述步骤3具体实现方式为:
步骤31.针对得到的所述要素目录和所述要素内容,聚合到不同商品申报文本下,相同申报要素的要素内容,通过TF-IDF-M算法,获取出每个所述申报要素下的词语重要度,选择前4-6%的词语作为该申报要素下的关键词;
步骤32.按要素遍历所述海关进出口商品申报文本,如果当前要素内容中提及通过TF-IDF-M算法得到的关键词,则使用关键词替换整个要素内容。
5.根据权利要求4所述一种基于关键词算法的海关进出口商品文本异常查验方法,其特征在于,所述TF-IDF-M算法涉及的公式为:
TF-IDF-M=TF*IDF/M(4)
其中,TFW为词频,IDFW为逆文档频率,M为当前词频的开根号值和最大词频根号值中较大的一方,该值作为TF-IDF-M算法的惩罚项。
6.根据权利要求1所述一种基于关键词算法的海关进出口商品文本异常查验方法,其特征在于,所述步骤4具体实现方式为:
步骤41.加载各要素的互斥词库,首先判断一条商品申报文本中,存在互斥词的要素数量是否超过1个;如果该条商品申报文本只有一个要素存在互斥词,那么该商品不具有词间互斥的可能,直接跳过即可;
步骤42.对存在互斥词的要素数量超过1条的商品申报记录,判断各个要素内容之间,是否存在互斥关系,如果存在,则判定该条商品存在异常申报情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111233369.3/1.html,转载请声明来源钻瓜专利网。