[发明专利]一种基于匹配规则的模糊中文地址地理赋值方法无效
申请号: | 201010221943.9 | 申请日: | 2010-06-30 |
公开(公告)号: | CN101882163A | 公开(公告)日: | 2010-11-10 |
发明(设计)人: | 程昌秀;于滨 | 申请(专利权)人: | 中国科学院地理科学与资源研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 贾玉忠 |
地址: | 100101 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 匹配 规则 模糊 中文 地址 地理 赋值 方法 | ||
技术领域
本发明属于地理信息系统领域,涉及面向模糊中文地址的地址赋值方法。
背景技术
随着电子地图的应用与普及,各行各业都普遍存在着大量由自然语言描述的中文地址数据,需要映射为地理坐标,并定位到电子地图上,从而使原有非空间数据获得空间坐标信息,实现各部门和各地理范围的数据的整合与共享。这就需要用到地理(地址)赋值技术,即把文本地址转换成地理坐标的技术。地理赋值方法一般被划分为地址标准化,地址分词,数据库匹配,空间定位等几个步骤。
国外的地理赋值技术已基本成熟,但是对于中文地址的地理赋值方法还有待研究。一是因为中英文之间的差异,比如中文地址的词与词之间没有空格隔开等问题的存在。二是因为我国的现有地名,地址体系异常复杂,地址系统混乱、无序、缺乏规律性和统一的标准。因此,国外已有的地理赋值技术并不适合中国国情,直接套用国外的地理赋值技术是不可行的。
目前,国内各部门与学者已经陆续开展了中国地址标准化的研究,为标准地址库的建立奠定了良好的数据基础。但是普通百姓在输入其需要定位的地址时,往往输入的往往是一些模糊中文地址。以标准地址“东直门内大街5号东兴楼”为列,普通百姓输入的地址可能五花八门,如含冗余信息的“东直门桥东直门内大街5号西东兴楼”、信息残缺的“东兴楼”、易引起歧义的“东直门5号”、使用别名的“簋街5号东兴楼”等。如何做好模糊中文的地址匹配是地理赋值方法在我国进入实用阶段的一个重要问题。
此外,我国不同地区、不同行业对地址匹配的精度要求不同。例如,在农村信件的投递中,地址匹配最小行政区“村”即可,而在城市的信件投递中则可能需要定位到“街道号+门牌号”或“小区+楼号+房间号”等。因此,为了提高中文地址赋值方法的通用性,需要研究如何基于用户定义的匹配规则对已分词的中文地址进行地址匹配。
发明内容
本发明要解决的技术问题是:克服现有技术的不足,提出一种基于规则的模糊中文地址地理赋值方法;该方法基于标准地址库和既定的地址匹配规则,能够实现模糊中文地址的分词与匹配,从而实现模型中文地址的地理赋值。
本发明为解决其技术问题所采用的技术方案是:一种基于规则的模糊中文地址地理赋值方法,包括以下步骤:
(1)数据准备:
a)输入地址字符串Addr;
b)读入整个标准地址库,作为目标数据集RecSet;标准地址库中包含以下内容:12位代码表示的行政区划;存储详细街道地址中最小地址要素的五个字段,即道路1、门牌号2、住宅小区3、楼牌号4、兴趣点POI(Point of Interest)5;用于存储空间信息的字段,存储地理坐标、经纬度或建筑物编码;
c)读入行政区划代码表;表中包括以下几个字段:序号,行政区划名称,行政区划级别,行政区划12位代码;
d)定义匹配规则库,将地址总结为常见的地址公式,并根据步骤(1)中步骤b)里所述标准地址库中对应的字段编号,将每条地址公式转化成对应的地址规则并存储到文本文件Rule中;
(2)读入标准地址库、行政区划代码表和规则库;地址字符串作为待匹配记录,用Addr表示;标准地址库作为初始目标数据集,用RecSet表示;
(3)将Addr中的行政区划部分转换为12位代码,缩小目标数据集:
a)在行政区划代码表中,搜索Addr中存在的行政区划标志词,根据所述行政区划标志词从Addr中识别并拆分出行政区划部分;
b)如果搜索到的行政区划标志词为多个,则比较各个行政区划标志词的级别属性,确定行政区划标志词中行政级别最低的词语,并据此将所述行政区划部分转化为与确定的行政级别最低的词语相对应的12位行政区划代码;
c)过滤RecSet,除去与得到的12位行政区划代码不符的记录;
d)将除去的行政区划部分的地址字符串重新赋值为Addr;
(4)对Addr进行地址分词与匹配,将分词结果存储到数组Addr_Split[i]里,将匹配结果存储到数据集RecSet里:
a)定义Addr的子串为Sub,首先将整个Addr赋值给Sub,定义歧义栈为Stack,Stack用于存储匹配中产生的语义歧义,Stack中存储的元素为结构体变量Struct(i);
b)查询地址匹配规则库,根据查询规则库的次数,限定步骤(4)中步骤c)里的搜索字段范围;如果为第n次查询规则库,则依次访问库中的每条规则,将每条规则中第n个字段的合集限定为搜索字段范围;
c)判断Sub是否为空:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院地理科学与资源研究所,未经中国科学院地理科学与资源研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010221943.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息安全保护装置
- 下一篇:一种基于核密度估计的三维模型比较和检索方法