[发明专利]一种通过链接快速识别网页类型的方法及系统有效
申请号: | 201010590389.1 | 申请日: | 2010-12-15 |
公开(公告)号: | CN102567337B | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 陈运文 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京辰权知识产权代理有限公司11619 | 代理人: | 佟林松 |
地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通过 链接 快速 识别 网页 类型 方法 系统 | ||
1.一种通过链接快速识别网页类型的方法,其特征在于,包括以下步骤:
1)构建链接归一词典,将所需网页类型和对应的链接归一规则及归一字符串保存到该链接归一词典中;
2)从网络蜘蛛已经抓取的网页中提取出所有链接;
3)到链接归一词典中读取归一字符串,从中提取出前缀字符串;
4)判断步骤2)的链接中是否包含有步骤3)的前缀字符串,若有,则到链接归一词典中找出该前缀字符串对应的归一字符串、归一规则和网页类型,转到步骤5);若没有,则转到步骤3),处理下一条链接;
5)根据步骤4)的归一规则,生成该链接的归一字符串,并与步骤4)的归一字符串进行比对,若相同,则将步骤4)的网页类型赋给该链接,并将该链接传给网络蜘蛛;若不同,则放弃该链接;
6)重复步骤2)至5),直至网络蜘蛛完成全部抓取工作;
所述步骤1)中,归一字符串的生成方法,包括以下步骤:
分析所需网页类型的链接命名规律;
将链接中代表站点部分的字符串去掉,剩下的字符串按照指定分隔符分段切分成字符子串;所述分隔符为字符.,=?&/-_#中的任意一种;
对链接中发生变化部分的字符子串进行归一,并保存归一字符串;所述归一的方法,包括以下步骤:将字符划分为数字、字母和其他字符三种,分别用不同的归一字符表示;连续多个相同的归一字符合并;所述归一规则至少包含有一个子规则,每个子规则对应一个字符子串,并记录有该字符子串的归一类型;所述归一类型分为三种:数字串的归一、字母串的归一和其他字符串的归一,分别用不同的字符表示;
所述步骤2)中,提取链接的方法是:在页面内寻找以字符串<a href=″开始,以字符串″>结束的部分,从中提取出链接;
所述步骤3)中,提取前缀字符串的方法,包括以下步骤:在归一字符串中,从左至右,检测字符@、#或&出现的位置,以这三类字符首次出现的位置为尾部,截断该归一字符串,保存在前缀字符串中。
2.一种通过链接快速识别网页类型的系统,用于实现权利要求1所述的方法,其特征在于,包括有:
链接归一词典,用于保存所需网页类型及其对应的链接归一规则和归一字符串;
链接提取模块,用于从网络蜘蛛已经抓取的网页中提取出链接;
前缀提取模块,用于从链接归一词典中读取归一字符串,并从该归一字符串中提取出前缀字符串;
类型预判模块,用于根据该前缀字符串初步判断该链接的类型,并在判断结果为有效页面时,将链接归一词典中该前缀字符串对应的归一字符串、归一规则和网页类型,传给类型判别模块;
类型判别模块,用于根据类型预判模块传入的归一规则,生成该链接的归一字符串,和类型预判模块传入的归一字符串比对,判断出该链接的类型,并将判断结果为有效的链接传给网络蜘蛛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010590389.1/1.html,转载请声明来源钻瓜专利网。