[发明专利]中英文地址自动检测方法及系统在审
申请号: | 201810330903.4 | 申请日: | 2018-04-13 |
公开(公告)号: | CN110377897A | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 钟萍 | 申请(专利权)人: | 顺丰科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京瑞盟知识产权代理有限公司 11300 | 代理人: | 刘昕 |
地址: | 518000 广东省深圳市南山区学府路(以南)*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中英文 校验 自动检测 词组 提示信息 分词 英文 拼音 地址对应关系 预处理 数据预处理 词性处理 地址要素 模糊匹配 用户书写 自动辨别 自动识别 拼写 算法 录入 兼容 街区 翻译 输出 书写 风格 | ||
1.一种中英文地址自动检测方法,其特征在于,包括如下步骤:
对中英文地址进行数据预处理;
采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;
对经拼音和英文校验后的词组进行词相似模糊匹配校验;
输出经自动检测后的中英文地址及提示信息。
2.根据权利要求1所述的中英文地址自动检测方法,其特征在于,所述方法还包括:得到若干词组后、对词组进行校验前的区分词组中的中文数字是否转化为阿拉伯数字的步骤。
3.根据权利要求2所述的中英文地址自动检测方法,其特征在于,采用结合上下文的二元语言模型来区分词组中的中文数字是否转化为阿拉伯数字。
4.根据权利要求1所述的中英文地址自动检测方法,其特征在于:所述数据预处理包括中文编码转换和/或数据筛选和/或中文数字转换阿拉伯数字。
5.根据权利要求1所述的中英文地址自动检测方法,其特征在于:所述切词算法包括DAG切词算法、Viterbi切词算法、HMM切词算法中的一种或多种。
6.根据权利要求1所述的中英文地址自动检测方法,其特征在于:所述分词方法包括pattern split分词方法。
7.根据权利要求1所述的中英文地址自动检测方法,其特征在于:所述对词组中的门牌号及街区号进行数字、字符校验包括通过比较中英文地址中该部分的jaccard距离,校验中文地址中出现的门牌号及街区号是否对应出现在英文地址中,并给出提示信息。
8.根据权利要求1所述的中英文地址自动检测方法,其特征在于:所述对词组中的地址要素词进行拼音及英文校验包括通过比较中英文地址中该部分的编辑距离,校验中文地址中出现的地址要素词是否对应出现在英文地址中,并给出提示信息。
9.根据权利要求1所述的中英文地址自动检测方法,其特征在于,所述方法还包括:当对所述词组中的地址要素词进行拼音校验失败后,启动本地自定义词库和/或在线字典对所述地址要素词进行查询,通过比较编辑距离再次进行校验。
10.根据权利要求9所述的中英文地址自动检测方法,其特征在于,所述方法还包括:当使用在线字典完成所述地址要素词的查询和再次校验后,将所述地址要素词的查询和再次校验信息存储于所述本地自定义词库中。
11.根据权利要求1所述的中英文地址自动检测方法,其特征在于:所述对经拼音和英文校验后的词组进行词相似模糊匹配校验包括通过比较jaccard距离及编辑距离对经拼音和英文校验后的词组进行词相似模糊匹配校验;当jaccard距离和编辑距离满足特定阈值限制,则认为匹配成功,给出提示信息。
12.根据权利要求1所述的中英文地址自动检测方法,其特征在于,所述方法还包括:得到若干词组后、对词组进行校验前,根据自定义的停用词库去掉词组中的停用词的步骤。
13.一种中英文地址自动检测系统,其特征在于,所述系统包括:
数据预处理模块,用于对中英文地址进行数据预处理;
切词分词模块,用于对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
校验模块,用于对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;以及对经拼音和英文校验后的词组进行词相似模糊匹配校验;
输出模块,用于输出经自动检测后的中英文地址及提示信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810330903.4/1.html,转载请声明来源钻瓜专利网。