[发明专利]一种基于字典树的中文地理编码方法有效
申请号: | 201810986238.4 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109344213B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 张贵军;李远锋;孙沪增;周晓根;刘俊;秦子豪 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/29 | 分类号: | G06F16/29 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 字典 中文 地理 编码 方法 | ||
一种基于字典树的中文地理编码方法,首先对当前的中文地理编码的背景进行了概述,阐述了中文地理编码同英文地理编码的差异和难度,包括以下步骤:1)对地址要素进行了划分;2)将标准化的字符串分割;3)讲述了如何构建字典树——构建字典树节点类型,拆分地址信息为地址要素,映射要素级别,映射出经纬度;4)探讨了如何通过构建的字典树,进行地址串搜索、通配。本发明提供了一种提高中文地址编码效率和增强灵活性的基于字典树的中文地理编码方法。
技术领域
本发明涉及一种地理信息编码、地理信息坐标映射技术、计算机应用领域,一种基于字典树中文地理编码方法。
背景技术
中文地理编码不同于其他的编码方式,是将复杂多变的中文地址数据映射成计算机能识别的地理坐标形式,例如经纬度,城市区域编码等等,即将毫无关系的纯文本字符串与空间地理建立联系。无论是提供标准的地址字符串还是提供地理坐标(经纬度、城市区域编码),都能知其一,而映射出另一方。
根据调查显示,城市信息中与地理位置相关的占据着80%左右,而这些坐标大多数都是自然语言描述的,无法进行分析,这对于城市化的中国来说,是一个极大的阻碍。所以推进数字化的城市建设和发展,提出一种高效快速的解决方法——对大量的自然语言描述的地址进行高效集约的坐标编码。这种方法的提出可以方便高效的将非空间信息转化为空间坐标信息,以便GIS系统分析和应用。对于有关部门来说,其提供了实时、快捷、可视化的强大工具;对于居民来说,地理信息编码给出行的民众带来了便利,使其方便容易的进行地址查找,帮助用户实现对未知区域,未知地点快速了解和查询,减少居民出行的盲目性,节约金钱,提高效率。
因此一个中文地址的建库、维护和管理来适应国内复杂多变的地址现状是非常有意义的,既能满足政府部门需求,又能满足民众出行查询定位日常生活需要。而目前中文地址标准化的工作难度体现在各个方面。由于地区不同,所以不同地区的地址使用情况复杂多变,明确标记代码和规定在少数几个国家机关使用,其他级别的由于数量大,结构极其复杂,长期以来缺乏有效的集约化标准,导致各个地区对地址的编码和使用很混乱,带有较重的地方特色,因此没有形成统一的命名规范。而且从技术层面来看,中文的编码难度要远远高于英文等其它语言。中文属于表意文字,文字和文字之间没有分隔号,相同的词语在不同的语境下存在不同的含义,这样在中文分词方面要比其他语言难的多。因此中文分词不能像英文分词那样用简单的分隔符划分,并且机械地采用一般的地址分级,这样很可能出现分词错误。
对此,在地理信息编码方法上进行了研究和分析,发现现存的地理信息编码在灵活和效率上,有着较大的缺陷,需要改进。
发明内容
针对中文地理信息编码复杂、标准不统一,不能直接和地理坐标直接相互映射的问题,本发明提出了一种可以快速、准确地理信息编码方案,方案的基本算法采用的是字典树,且和一种特殊的有向图相结合来解决地理信息的编码。
本发明涉及的基本概念包括地址要素、地址要素级别和标准地址。例如一个通信地址为“浙江省杭州西湖区留和路288号”,则这个通信地址由3个地址要素组成,分别是“浙江省”,“杭州市”,“西湖区”以及“留和路288号”组成。地址要素级别是一个要素的级别,假定中国级别为1,而杭州的级别是2,西湖区级别3,其代表地址的从属关系和层级关系。
本发明解决其技术问题所采用的技术方案是:
一种基于字典树的中文地理编码方法,所述中文地理编码方法包括以下步骤:
1).地址要素级别划分,将地址要素级别划分为11级别,分别是:1级,中国;2级,省、直辖市;3级,省会、地级市;4级,区、县、地级市;5级,街道、乡镇;6级,社区、村;7级,地片、区片;8级,道路、街巷;9级,楼牌号;10级,门牌号;11级,POI标志物;
2).将标准化的字符串分割,将得到的字符串,按照地址要素级别划分;
3).构建字典树,过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810986238.4/2.html,转载请声明来源钻瓜专利网。