[发明专利]中英文地址自动检测方法及系统在审
申请号: | 201810330903.4 | 申请日: | 2018-04-13 |
公开(公告)号: | CN110377897A | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 钟萍 | 申请(专利权)人: | 顺丰科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京瑞盟知识产权代理有限公司 11300 | 代理人: | 刘昕 |
地址: | 518000 广东省深圳市南山区学府路(以南)*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中英文 校验 自动检测 词组 提示信息 分词 英文 拼音 地址对应关系 预处理 数据预处理 词性处理 地址要素 模糊匹配 用户书写 自动辨别 自动识别 拼写 算法 录入 兼容 街区 翻译 输出 书写 风格 | ||
本发明涉及一种中英文地址自动检测方法及系统。所述方法包括:对中英文地址进行数据预处理;采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;对经拼音和英文校验后的词组进行词相似模糊匹配校验;输出经自动检测后的中英文地址及提示信息。所述方法可实现通关件中英文地址对应关系的自动识别与校验;可以自动检测中英文地址是否对应,可兼容不同用户风格各异的英文地址书写习惯以及翻译风格,还可以自动辨别用户可能存在的拼写错误、或因为用户书写潦草而引起的系统录入时的辨认错误,给出相应提示信息等。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种中英文地址自动检测方法及系统。
背景技术
随着电子商务及快递物流产业的发展,通关快件的数量规模在不断扩大,与此同时产生了海量的地址数据。通关件的收件地址包括英文地址及中文地址,英文地址必须与中文地址一一对应。
目前的通关地址处理模式为,关务人员对大量的中英文地址逐条进行人工审查,判断收件中英文地址是否对应正确。该处理模式对审核人员的英文水平,拼音水平,地址信息储备能力都有较高的要求。此外,不同用户的英文地址书写顺序、缩写习惯、翻译水平、字迹工整程度也各不相同,进一步增加了人工审查的难度。而尝试使用google翻译,有道翻译,百度翻译等方式直接对通关件地址翻译效果也很不理想,仍需大量人工辨识、理解、纠错工作。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
鉴于上述问题,本发明的一个目的在于提供一种中英文地址自动检测方法。该方法可实现通关件中英文地址对应关系的自动识别与校验,大量减轻或替代人工审核标注工作。
本发明的第二个目的在于提供一种中英文地址自动检测系统。该系统在运行时能够实现如上所述方法的步骤。
本发明的第三个目的在于提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上方法所述的步骤。
本发明的第四个目的在于提供一种设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上方法所述的步骤。
为了实现上述第一个目的,本发明采用如下技术方案:
一种中英文地址自动检测方法,包括如下步骤:
对中英文地址进行数据预处理;
采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;
对经拼音和英文校验后的词组进行词相似模糊匹配校验;
输出经自动检测后的中英文地址及提示信息。
优选地,所述方法还包括:得到若干词组后、对词组进行校验前的区分词组中的中文数字是否转化为阿拉伯数字的步骤。
优选地,采用结合上下文的二元语言模型来区分词组中的中文数字是否转化为阿拉伯数字。
优选地,所述数据预处理包括中文编码转换和/或数据筛选和/或中文数字转换阿拉伯数字。
优选地,所述切词算法包括DAG切词算法、Viterbi切词算法、HMM切词算法中的一种或多种。
优选地,所述分词方法包括pattern split分词方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810330903.4/2.html,转载请声明来源钻瓜专利网。