[发明专利]一种基于地址特征词的多层次快速中文地址匹配方法在审
申请号: | 201410134887.3 | 申请日: | 2014-04-03 |
公开(公告)号: | CN103914544A | 公开(公告)日: | 2014-07-09 |
发明(设计)人: | 杜震洪;张丰;刘仁义;徐聪;张逸然;郑晔 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于地址特征词的多层次快速中文地址匹配方法,属于地理信息科学的数据空间化研究领域。本发明所述方法具体包括标准中文地址匹配词典构建和地址匹配两个环节,以地址特征词为分词依据对标准中文地址进行中文分词,并采用双数组trie树和哈希运算完成标准中文地址匹配词典的构建,采用双向扫描及哈希运算代替数据库检索的方式,获取待匹配中文地址的地理空间坐标,完成地址匹配。本发明的优点在于能够在计算机内存中完成整个地址匹配过程,并采用双向扫描和边分词边匹配的方式,提高了地址匹配的匹配速率。同时,根据中文地址的分类、分层及组合规则,解决了部分中文地址由于地址要素缺失无法完成地址匹配的问题,提高了地址匹配的准确度。 | ||
搜索关键词: | 一种 基于 地址 特征 多层次 快速 中文 匹配 方法 | ||
【主权项】:
一种基于地址特征词的多层次快速中文地址匹配方法,其特征在于包括如下步骤:1)从标准中文地址数据库中读入所有标准中文地址的记录,包括每一个标准中文地址的地理空间坐标x值、y值;2)根据中文地址的分类规则,以地址特征词为分词依据对标准中文地址进行正向扫描中文分词,将中文分词所获得的5类地址要素插入到对应的5类双数组trie树中;3)从5类双数组trie树中获取标准中文地址所对应的地址编码元素集合,按照最小代价原则,以中文地址的分层和组合规则为依据对地址编码元素进行组合和排列,获取唯一表示该标准中文地址的4个地址编码,对这4个地址编码进行哈希运算,将该标准中文地址的地理空间坐标存储在哈希表中其哈希函数值对应的位置上,对所有标准中文地址依次进行步骤2)~步骤3)的操作,完成标准中文地址匹配词典构建;4)读取待匹配中文地址字符串,分别赋值S1和S2,同时进行正向扫描匹配和逆向扫描匹配;5)判断正向扫描匹配和逆向扫描匹配是否成功,若正向扫描匹配或逆向扫描匹配失败,返回步骤4);若正向扫描匹配和逆向扫描匹配成功,获取对应匹配结果的地址编码组合T1和T2;6)设地址编码T = T1 + T2,对T进行哈希运算,通过哈希函数值在哈希表中查找对应的地理空间坐标,若存在,获取对应地理空间坐标,地址匹配成功,若不存在,地址匹配失败,重复步骤4)~步骤6),完成所有待匹配中文地址的地址匹配。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410134887.3/,转载请声明来源钻瓜专利网。
- 上一篇:儿童推车后篮折叠机构的折叠固定座
- 下一篇:案件嫌疑人自动排查的分析方法