[发明专利]基于网络爬虫的地名数据库维护方法有效

专利信息
申请号: 201110158956.0 申请日: 2011-06-14
公开(公告)号: CN102253972A 公开(公告)日: 2011-11-23
发明(设计)人: 张雪英;张春菊;杜超利;朱少楠 申请(专利权)人: 南京师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京知识律师事务所 32207 代理人: 汪旭东
地址: 210046 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 网络 爬虫 地名 数据库 维护 方法
【说明书】:

技术领域

发明涉及一种利用网络爬虫技术进行地名数据库维护的方法。

背景技术

地名是人们赋予宇宙中特定地理实体的代号,是区别某一特定地理实体与其他地理实体的一种标志。地名作为最常用的社会公共信息之一,是地理空间信息的重要组成部分,是测绘数字产品不可缺少的信息,也是寻常百姓最易接受的定位方式。地名数据库一般描述地名名称、地名的要素类型和空间位置三个基本特征及其他附属信息,利用现代数据库技术采用数字、文字、图像、声音等多媒体形式对地名相关信息进行存贮、组织和管理,具有容量大、更新便捷、服务灵活多样等优点。地名数据库是地名公共服务的基础,为国家行政管理、经济建设、国内外交往等提供不可或缺的基础信息资源。特别是,随着社会信息化的发展,以地名信息为基础的基于位置服务(Location-Based-Service,LBS)的需求日益增长,并在日常生活中潜移默化地改变着人们的生活。例如,寻找餐馆、旅店、娱乐中心、购物中心等常规的寻址问路,以及弘扬地名文化、旅游文化、畅享虚拟城市游戏、共享网络社区交流等多元化的空间位置服务。建立信息完备、时效性强的地名数据库是实现LBS高效服务的前提和保障。

长期以来,欧美等国家地名命名比较规则,地名数据库内容较为规范,地名数据库的构建、更新维护较为容易。比较典型案例有亚历山大数字图书馆地名数据库(ADL)(http://www.alexandria.ucsb.edu/adl/.)、美国地名信息系统(GNIS)(http://nhd.usgs.gov/gnis.html)、澳大利亚地名数据库(GOA)(http://www.ga.gov.au/place-name/)等。这些地名数据库具备比较完善、实时的地名描述信息,提供免费共享服务,成功应用于国家的政治、外交、军事、经济和公众服务等各个领域。

我国地名数据库建设起步较晚,主要由民政部门和测绘单位承担。1979年至1986年期间,民政部门开展了第一次全国地名普查工作,2009年至2012年间的第二次全国地名普查试点工作正在启动。本次普查内容侧重于现代地名信息数据库的建设,信息采集内容主要包括试点区的地名及相关属性信息的清查、不规范地名的标准化、重要地理实体的地名标志设置等。2003年民政部颁发《关于建立地名数据库有关问题的通知》,全国各省市都加快了当地地名数据库建设的步伐,县级以上行政单位基本建立了本地地名数据库。自1994年以来,国家测绘局相继建成了全国1∶100万、1∶25万和1∶5万地名数据库(狄琳,欧阳宏斌.“全国1∶25万地名数据库的设计与建立”[J].《测绘通报》,2010年,第10期,32-33页;陈春华.“1∶5万地名数据库到1∶1万地名数据库转换的研究与开发”[J].《测绘通报》,2006年,第5期,71-72页)。该数据库将国家地形图上各类地名注记及其汉语拼音、属性要素等录入计算机,与地形数据库通过技术结构连接实现相互访问,或作为独立的关系型数据库运行。目前,各省、自治区、直辖市正在开展省级1∶1万地名数据库的建设(部分已完成)。

通常情况下,人们对位置信息描述时地名颗粒度较小、实时性较强,而且习惯使用地名的别称、简称、地名属性、相对位置关系等相关信息进行描述。尽管民政部门和测绘单位采用现代测绘技术手段建立了各级别的国家和地方地名数据库,并进行了地名数据库维护更新的相关工作(张保钢,杨伯钢,孔俊元,“北京市地名数据库的维护更新”[J],《北京测绘》,2010年,第3期,28-30页)。但是地名数据库建设不能够满足社会需求,存在较多亟待解决的难题。主要包括以下几个方面:

(1)地名信息采集缺乏统一规范,信息描述非标准化;

(2)大、中颗粒度地名集中,小颗粒度地名和非标准地名信息较为缺乏;

(3)地名资料陈旧、时效性较低;

(4)地名的相对位置描述信息缺失;

(5)地名数据库更新维护主要采用人工测绘手段,周期长、成本高、效率低。因此,对地名数据库进行高效持续的更新维护具有十分迫切的需求。

随着网络资源的日益丰富以及网页资源的更新速度和参与者的日益增多,互联网已经成为能够与报纸、电视和广播齐名的四大传媒之一,而且在时效性上有着不言而喻的优势。据调查显示,人类社会80%以上的信息资源与地理空间相关。作为人类信息资源表达的载体,网页文档中蕴含着丰富的地理空间信息。因此,以网页资源为数据源,获取地名及其相关位置信息对地名数据库进行实时、快速的更新维护,可以有效解决当前地名数据库建设与社会需求之间的矛盾。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110158956.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top