[发明专利]基于网络爬虫的地名数据库维护方法有效
申请号: | 201110158956.0 | 申请日: | 2011-06-14 |
公开(公告)号: | CN102253972A | 公开(公告)日: | 2011-11-23 |
发明(设计)人: | 张雪英;张春菊;杜超利;朱少楠 | 申请(专利权)人: | 南京师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网络 爬虫 地名 数据库 维护 方法 | ||
1.基于网络爬虫的地名数据库维护方法,主要包括两个部分:基于网络爬虫的空间敏感网页获取和网页文本中地名信息解析,基本步骤如下:
步骤一:基于Google搜索引擎的空间敏感网页获取
首先,注册Google账户;然后,遍历现有地名数据库中的地名并将其作为种子地名,利用Google搜索引擎的主题搜索功能,以“地名”或者“地名+空间关系词汇”为检索词获取相关网页,并将其作为候选空间敏感URL,用户可定制候选页面的数量;
步骤二:空间敏感网页过滤
首先,分析候选URL页面,采用正则表达式剔除语法标记、纠正不合格语法及去掉重复的网页地址,采用中科院研究所研制的ICTCLASS分词软件对网页文本进行分词预处理;
然后,提取候选URL页面正文和标题的空间主题关键字,构建候选URL页面空间主题向量,计算待选URL页面与空间检索词的空间主题相关度,见公式:
Sim(D1,D)=Sim(D2,D)*α+Sim(D3,D)*β
式中,D1为空间检索主题,D为待选URL页面,D1和D2分别为待选URL页面的正文和标题,Sim(D1,D)为待选URL页面与空间检索词的空间主题相关度,Sim(D2,D)和Sim(D3,D)分别为待选URL页面的正文和标题与空间检索词的空间主题相关度,α、β分别为Sim(D2,D)和Sim(D3,D)的权值(α<β),其中Sim(D2,D)、Sim(D3,D)的计算公式为:
式中,w1,w2,.....wn(i=1,2,...,n)为空间检索词的主题向量,n表示空间检索词的个数,wi为每个检索词的权重;x1w1,x2w2,.....xnwn(i=1,2,...,n)为待选URL页面空间主题向量,xi为待选URL页面中各空间检索词的出现频率,xiwi表示该页面对应向量的每一维分量;
最后,根据待选URL页面与空间检索词的空间主题相关度过滤待选URL网页;
步骤三:网页解析
首先,对网页文本进行预处理,包括去除HTML标签、网页脚本等干扰信息以及网页文档的规范化;然后,利用DOM方法解析网页,形成一棵以HTML为根节点的结构明晰、层次好的DOM标记树;
步骤四:地名识别
采用条件随机场的地名识别模型识别DOM节点中的地名,并检验地名识别结果的有效性;
步骤五:新地名的获取
基于步骤四的地名识别结果,采用地名数据库匹配的方式,从网页文本中获取地名数据库未收录的地名;
步骤六:地名空间位置信息获取
基于第四步中的地名识别结果,获取地名的空间位置信息。
2.根据权利要求1所述的基于网络爬虫的地名数据库维护方法,其特征在于,所述第五步骤的具体计算过程如下:
网页文本中蕴含的地名空间位置信息一般包括两种形式:
第一种:地名+地理坐标
待选URL页面的DOM树解析中,如果当前网页中只出现一个地名和地理坐标对,直接将标签内的地名和地理坐标关联起来;如果当前网页中出现多个地名和地理坐标对,在提取地名和地理坐标时,需要将其对应关联起来;具体算法如下:
Step1:对于每一个叶子节点上的地理坐标,后序遍历直至找到第一个满足上述假定条件的地名;如果地名和地理坐标相关联,将这个地名-空间位置对存储在新建树的节点中,同时将所有未关联的节点传递至父节点,转到Step2;
Step2:内部节点中,从左向右接受孩子节点传递过来的所有未关联的节点,将这些节点有序插入到文本字符串中;同样,按照步骤Step1的方法将这些节点关联起来,将所有未关联的节点传递至父节点,转到Step3;
Step3:如果不是根节点,继续步骤Step2,否则停止遍历;
第二种:地名+相对位置
在HTML网页的DOM树解析中,以句子为单位,获取具有相对位置关系的两个地名和最近匹配的空间关系词汇;其中,空间关系词汇的获取通过空间关系词汇词典匹配实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110158956.0/1.html,转载请声明来源钻瓜专利网。