[发明专利]地址识别方法及装置在审
申请号: | 201711311003.7 | 申请日: | 2017-12-11 |
公开(公告)号: | CN109947893A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 孙科武;林文辉 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/335;G06F17/27;G06F17/22 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址要素 地址识别 中文 相似性判断 地址元素 哈希表 申请 | ||
1.一种地址识别方法,其特征在于,包括:
对所述地址进行切分处理以根据哈希表对所述地址进行识别,并确定所述地址中不可识别的地址元素;
根据地址要素相似模型,对所述中文地址中不可识别的地址要素进行相似性判断,以对所述中文地址中不可识别的地址要素进行识别。
2.根据权利要求1所述的方法,其特征在于,对所述地址进行切分处理以根据哈希表对所述地址进行识别,并确定所述地址中不可识别的地址元素包括:
对所述地址进行字符切分,并根据所述哈希表以及对所述地址进行字符切分得到的字符,对所述地址进行分词处理;
根据对所述地址进行分词处理的结果,对所述地址进行识别,并确定所述地址中不可识别的地址元素。
3.根据权利要求2所述的方法,其特征在于,对所述地址进行字符切分,并根据所述哈希表以及对所述地址进行字符切分得到的字符,对所述地址进行分词处理包括:
对所述地址进行字符切分,并根据所述哈希表以及对所述地址进行字符切分得到的字符,确定切分得到的字符的字符状态以及在所述哈希表中的节点关系;
根据字符的字符状态以及在所述哈希表中的节点关系,对所述地址进行分词处理。
4.根据权利要求3所述的方法,其特征在于,对所述地址进行字符切分,并根据所述哈希表以及对所述地址进行字符切分得到的字符,确定切分得到的字符的字符状态以及在所述哈希表中的节点关系包括:对所述地址进行字符切分,并根据所述哈希表以及对所述地址进行字符切分得到的当前字符与下一个字符,确定切分得到的下一个字符的字符状态以及在所述哈希表中当前字符和下一个字符的节点关系。
5.根据权利要求3所述的方法,其特征在于,确定所述地址中不可识别的地址元素:根据所述地址中对应地址元素的字符串的长度与所述哈斯表中字符串的索引,确定所述地址中不可识别的地址元素。
6.根据权利要求1所述的方法,其特征在于,在根据地址要素相似模型,对所述中文地址中不可识别的地址要素进行相似性判断,以对所述中文地址中不可识别的地址要素进行识别之前还包括:根据不可识别的历史地址要素建立地址要素相似模型。
7.根据权利要求6所述的方法,其特征在于,根据不可识别的历史地址要素建立地址要素相似模型包括:根据地址要素与历史地址的分布概率以及所述历史地址与行政区域的分布概率建立地址要素相似模型。
8.根据权利要求7所述的方法,其特征在于,将每一个所述历史地址抽象成文档,所述文档中每一词对应一个地址要素;将所述行政区域抽象成主体;
对应地,根据地址要素与历史地址的分布概率以及所述历史地址与行政区域的分布概率建立地址要素相似模型包括:
根据地址要素与历史地址的分布概率,确定所述主题的条件概率;
根据所述历史地址与行政区域的分布概率,根据所述文档中词的条件概率;
所述主题的条件概率以及所述文档中词的条件概率建立地址要素相似模型。
9.根据权利要求8所述的方法,其特征在于,根据地址要素相似模型,对所述中文地址中不可识别的地址要素进行相似性判断,以对所述中文地址中不可识别的地址要素进行识别包括:
根据根据地址要素相似模型,对所述中文地址中不可识别的地址要素进行相似性判断,得到所述不可识别的地址要素属于不同行政区域的概率;
根据所述不可识别的地址要素属于不同行政区域的概率,对所述中文地址中不可识别的地址要素进行识别。
10.一种地址识别装置,其特征在于,包括:
第一单元,用于对所述地址进行切分处理以根据哈希表对所述地址进行识别,并确定所述地址中不可识别的地址元素;
第二单元,用于根据地址要素相似模型,对所述中文地址中不可识别的地址要素进行相似性判断,以对所述中文地址中不可识别的地址要素进行识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711311003.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:分析路径确定方法及系统、界面、日志树构建方法
- 下一篇:一种文本标签提取系统