[发明专利]报关单校验方法及装置在审
申请号: | 202011285048.3 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112395865A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 曾锴;张明;周佳玉 | 申请(专利权)人: | 中国外运股份有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/284;G06F40/289;G06F16/33 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 郑朝然 |
地址: | 100029 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 报关单 校验 方法 装置 | ||
1.一种报关单校验方法,其特征在于,包括:
获取待进行校验的报关单文本,所述报关单文本包括中文文本和英文文本;
基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
将所述待匹配字段与所述分词词典进行匹配,若所述分词词典中存在与所述待匹配字段相同的词,则从所述报关单文本中分割出所述待匹配字段作为分词;
根据所述分词,校验报关单是否符合规范。
2.根据权利要求1所述的报关单校验方法,其特征在于,若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第一字段相同的词时,将所述第一字段作为分词。
3.根据权利要求2所述的报关单校验方法,其特征在于,若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第二字段相同的词时,将所述第二字段作为分词。
4.根据权利要求1所述的报关单校验方法,其特征在于,基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割,包括:
以标点符号分割所述报关单文本,获取若干个句子文本;
按照所述句子文本的文本顺序,选取排序最前的句子文本作为第一文本;
基于正则表达式,将所述第一文本中的中文文本和英文文本分割。
5.根据权利要求1所述的报关单校验方法,其特征在于,根据分词词典中最长词的长度,确定所述第二文本的待匹配字段,包括:
根据分词词典中最长词的长度,以及所述第二文本的文本顺序,在所述第二文本中选取排序最前且与所述最长词长度相同的文本作为待匹配字段。
6.一种报关单校验装置,其特征在于,包括:
第一获取单元,用于获取待进行校验的报关单文本,所述报关单文本包括中文文本和英文文本;
分割单元,用于基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
第二获取单元,用于基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
第三获取单元,用于根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
分词单元,用于将所述待匹配字段与所述分词词典进行匹配,若所述分词词典中存在与所述待匹配字段相同的词,则从所述报关单文本中分割出所述待匹配字段作为分词;
校验单元,用于根据所述分词,校验报关单是否符合规范。
7.根据权利要求6所述的报关单校验装置,其特征在于,所述分词单元,还用于:
若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第一字段相同的词时,将所述第一字段作为分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国外运股份有限公司,未经中国外运股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011285048.3/1.html,转载请声明来源钻瓜专利网。