[发明专利]报关单校验方法及装置在审
申请号: | 202011285048.3 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112395865A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 曾锴;张明;周佳玉 | 申请(专利权)人: | 中国外运股份有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/284;G06F40/289;G06F16/33 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 郑朝然 |
地址: | 100029 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 报关单 校验 方法 装置 | ||
本发明实施例提供一种报关单校验方法及装置,所述方法包括:基于预设规则分割报关单文本获取第一文本,并将第一文本中的中文文本和英文文本分割,基于第一文本的文本顺序依次选取对应的中文文本或英文文本作为第二文本,根据分词词典中最长词的长度确定第二文本的待匹配字段,将待匹配字段与分词词典进行匹配,若分词词典中存在与待匹配字段相同的词,则从报关单文本中分割出待匹配字段作为分词,并根据分词校验报关单是否符合规范。本发明实施例可以针对中文文本和英文文本分别进行校验,同时根据分词词典中最长词的长度确定待匹配字段,提高了校验效率和准确率。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种报关单校验方法及装置。
背景技术
随着经济的快速发展以及进出口贸易量的增长,越来越多的人们通过多种渠道进行跨境海外购,海关需要将这些跨境业务进行审核以便使其通关。
在通关业务处理中,海关方获取到通关人员提交的报关单后,需要检测报关单中是否包含危化品、是否包含濒危动植物等,但由于报关单数据不规范统一,现有的业务操作一般是根据人工经验进行报关单数据的判断,影响检测结果的准确性以及操作效率。
发明内容
针对现有技术存在的问题,本发明实施例提供一种报关单校验方法及装置。
具体地,本发明实施例提供了如下技术方案:
第一方面,本发明实施例提供一种报关单校验方法,包括:
获取待进行校验的报关单文本,所述报关单文本包括中文文本和英文文本;
基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
将所述待匹配字段与所述分词词典进行匹配,若所述分词词典中存在与所述待匹配字段相同的词,则从所述报关单文本中分割出所述待匹配字段作为分词;
根据所述分词,校验报关单是否符合规范。
进一步地,若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第一字段相同的词时,将所述第一字段作为分词。
进一步地,若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第二字段相同的词时,将所述第二字段作为分词。
进一步地,基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割,包括:
以标点符号分割所述报关单文本,获取若干个句子文本;
按照所述句子文本的文本顺序,选取排序最前的句子文本作为第一文本;
基于正则表达式,将所述第一文本中的中文文本和英文文本分割。
进一步地,根据分词词典中最长词的长度,确定所述第二文本的待匹配字段,包括:
根据分词词典中最长词的长度,以及所述第二文本的文本顺序,在所述第二文本中选取排序最前且与所述最长词长度相同的文本作为待匹配字段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国外运股份有限公司,未经中国外运股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011285048.3/2.html,转载请声明来源钻瓜专利网。