[发明专利]基于网络爬虫的地名数据库维护方法有效
申请号: | 201110158956.0 | 申请日: | 2011-06-14 |
公开(公告)号: | CN102253972A | 公开(公告)日: | 2011-11-23 |
发明(设计)人: | 张雪英;张春菊;杜超利;朱少楠 | 申请(专利权)人: | 南京师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于网络爬虫的地名数据库维护方法,主要包括两个部分:基于网络爬虫的空间敏感网页获取和网页文本中地名信息解析。具体步骤分为:基于Google搜索引擎服务的空间敏感网页获取;基于空间主题相关度的空间敏感网页过滤;基于DOM技术的网页解析;基于CRF模型的网页文本中地名识别;采用地名数据库匹配的方式,从网页文本中获取新地名;地名的空间位置信息解析。本发明的方法能有效解决当前地名数据库建设中非标准地名和小颗粒度地名缺乏、地名时效性较低和相对位置信息缺失、地名数据库更新维护周期长、成本高、效率低下等问题,可广泛应用于数字城市建设、空间位置服务、空间信息检索、自然语言处理等领域。 | ||
搜索关键词: | 基于 网络 爬虫 地名 数据库 维护 方法 | ||
【主权项】:
基于网络爬虫的地名数据库维护方法,主要包括两个部分:基于网络爬虫的空间敏感网页获取和网页文本中地名信息解析,基本步骤如下:步骤一:基于Google搜索引擎的空间敏感网页获取首先,注册Google账户;然后,遍历现有地名数据库中的地名并将其作为种子地名,利用Google搜索引擎的主题搜索功能,以“地名”或者“地名+空间关系词汇”为检索词获取相关网页,并将其作为候选空间敏感URL,用户可定制候选页面的数量;步骤二:空间敏感网页过滤首先,分析候选URL页面,采用正则表达式剔除语法标记、纠正不合格语法及去掉重复的网页地址,采用中科院研究所研制的ICTCLASS分词软件对网页文本进行分词预处理;然后,提取候选URL页面正文和标题的空间主题关键字,构建候选URL页面空间主题向量,计算待选URL页面与空间检索词的空间主题相关度,见公式:Sim(D1,D)=Sim(D2,D)*α+Sim(D3,D)*β式中,D1为空间检索主题,D为待选URL页面,D1和D2分别为待选URL页面的正文和标题,Sim(D1,D)为待选URL页面与空间检索词的空间主题相关度,Sim(D2,D)和Sim(D3,D)分别为待选URL页面的正文和标题与空间检索词的空间主题相关度,α、β分别为Sim(D2,D)和Sim(D3,D)的权值(α<β),其中Sim(D2,D)、Sim(D3,D)的计算公式为: Sim ( D 2 , D ) / Sim ( D 3 , D ) = x 1 w 1 2 + x 2 w 2 2 + . . . . . . . . + x n w n 2 w 1 2 + w 2 2 + . . . . . . + w n 2 x 1 2 w 1 2 + x 2 2 w 2 2 + . . . . x n 2 w n 2 式中,w1,w2,.....wn(i=1,2,...,n)为空间检索词的主题向量,n表示空间检索词的个数,wi为每个检索词的权重;x1w1,x2w2,.....xnwn(i=1,2,...,n)为待选URL页面空间主题向量,xi为待选URL页面中各空间检索词的出现频率,xiwi表示该页面对应向量的每一维分量;最后,根据待选URL页面与空间检索词的空间主题相关度过滤待选URL网页;步骤三:网页解析首先,对网页文本进行预处理,包括去除HTML标签、网页脚本等干扰信息以及网页文档的规范化;然后,利用DOM方法解析网页,形成一棵以HTML为根节点的结构明晰、层次好的DOM标记树;步骤四:地名识别采用条件随机场的地名识别模型识别DOM节点中的地名,并检验地名识别结果的有效性;步骤五:新地名的获取基于步骤四的地名识别结果,采用地名数据库匹配的方式,从网页文本中获取地名数据库未收录的地名;步骤六:地名空间位置信息获取基于第四步中的地名识别结果,获取地名的空间位置信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110158956.0/,转载请声明来源钻瓜专利网。