[发明专利]基于网络爬虫的地名数据库维护方法有效

专利信息
申请号: 201110158956.0 申请日: 2011-06-14
公开(公告)号: CN102253972A 公开(公告)日: 2011-11-23
发明(设计)人: 张雪英;张春菊;杜超利;朱少楠 申请(专利权)人: 南京师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京知识律师事务所 32207 代理人: 汪旭东
地址: 210046 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 网络 爬虫 地名 数据库 维护 方法
【权利要求书】:

1.基于网络爬虫的地名数据库维护方法,主要包括两个部分:基于网络爬虫的空间敏感网页获取和网页文本中地名信息解析,基本步骤如下:

步骤一:基于Google搜索引擎的空间敏感网页获取

首先,注册Google账户;然后,遍历现有地名数据库中的地名并将其作为种子地名,利用Google搜索引擎的主题搜索功能,以“地名”或者“地名+空间关系词汇”为检索词获取相关网页,并将其作为候选空间敏感URL,用户可定制候选页面的数量;

步骤二:空间敏感网页过滤

首先,分析候选URL页面,采用正则表达式剔除语法标记、纠正不合格语法及去掉重复的网页地址,采用中科院研究所研制的ICTCLASS分词软件对网页文本进行分词预处理;

然后,提取候选URL页面正文和标题的空间主题关键字,构建候选URL页面空间主题向量,计算待选URL页面与空间检索词的空间主题相关度,见公式:

Sim(D1,D)=Sim(D2,D)*α+Sim(D3,D)*β

式中,D1为空间检索主题,D为待选URL页面,D1和D2分别为待选URL页面的正文和标题,Sim(D1,D)为待选URL页面与空间检索词的空间主题相关度,Sim(D2,D)和Sim(D3,D)分别为待选URL页面的正文和标题与空间检索词的空间主题相关度,α、β分别为Sim(D2,D)和Sim(D3,D)的权值(α<β),其中Sim(D2,D)、Sim(D3,D)的计算公式为:

Sim(D2,D)/Sim(D3,D)=x1w12+x2w22+........+xnwn2w12+w22+......+wn2x12w12+x22w22+....xn2wn2]]>

式中,w1,w2,.....wn(i=1,2,...,n)为空间检索词的主题向量,n表示空间检索词的个数,wi为每个检索词的权重;x1w1,x2w2,.....xnwn(i=1,2,...,n)为待选URL页面空间主题向量,xi为待选URL页面中各空间检索词的出现频率,xiwi表示该页面对应向量的每一维分量;

最后,根据待选URL页面与空间检索词的空间主题相关度过滤待选URL网页;

步骤三:网页解析

首先,对网页文本进行预处理,包括去除HTML标签、网页脚本等干扰信息以及网页文档的规范化;然后,利用DOM方法解析网页,形成一棵以HTML为根节点的结构明晰、层次好的DOM标记树;

步骤四:地名识别

采用条件随机场的地名识别模型识别DOM节点中的地名,并检验地名识别结果的有效性;

步骤五:新地名的获取

基于步骤四的地名识别结果,采用地名数据库匹配的方式,从网页文本中获取地名数据库未收录的地名;

步骤六:地名空间位置信息获取

基于第四步中的地名识别结果,获取地名的空间位置信息。

2.根据权利要求1所述的基于网络爬虫的地名数据库维护方法,其特征在于,所述第五步骤的具体计算过程如下:

网页文本中蕴含的地名空间位置信息一般包括两种形式:

第一种:地名+地理坐标

待选URL页面的DOM树解析中,如果当前网页中只出现一个地名和地理坐标对,直接将标签内的地名和地理坐标关联起来;如果当前网页中出现多个地名和地理坐标对,在提取地名和地理坐标时,需要将其对应关联起来;具体算法如下:

Step1:对于每一个叶子节点上的地理坐标,后序遍历直至找到第一个满足上述假定条件的地名;如果地名和地理坐标相关联,将这个地名-空间位置对存储在新建树的节点中,同时将所有未关联的节点传递至父节点,转到Step2;

Step2:内部节点中,从左向右接受孩子节点传递过来的所有未关联的节点,将这些节点有序插入到文本字符串中;同样,按照步骤Step1的方法将这些节点关联起来,将所有未关联的节点传递至父节点,转到Step3;

Step3:如果不是根节点,继续步骤Step2,否则停止遍历;

第二种:地名+相对位置

在HTML网页的DOM树解析中,以句子为单位,获取具有相对位置关系的两个地名和最近匹配的空间关系词汇;其中,空间关系词汇的获取通过空间关系词汇词典匹配实现。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110158956.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top