[发明专利]一种通过链接快速识别网页类型的方法及系统有效
申请号: | 201010590389.1 | 申请日: | 2010-12-15 |
公开(公告)号: | CN102567337B | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 陈运文 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京辰权知识产权代理有限公司11619 | 代理人: | 佟林松 |
地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种通过链接快速识别网页类型的方法,包括步骤1)构建链接归一词典;2)提取链接;3)读取链接归一词典,生成前缀字符串;4)快速预判链接前缀类型;5)判别链接类型;6)有效链接传给网络蜘蛛。本发明还公开了实现上述方法的系统,包括链接归一词典、链接提取模块、前缀提取模块、类型预判模块以及类型判别模块。该系统及方法利用网页链接地址的命名规律,从链接地址中提取出前缀字符串和归一字符串,利用字符串之间的比对,快速判断出网页的类型,从而提高了网页类型识别的速度和网络蜘蛛的工作效率。 | ||
搜索关键词: | 一种 通过 链接 快速 识别 网页 类型 方法 系统 | ||
【主权项】:
一种通过链接快速识别网页类型的方法,其特征在于,包括以下步骤:1)构建链接归一词典,将所需网页类型和对应的链接归一规则及归一字符串保存到该链接归一词典中;2)从网络蜘蛛已经抓取的网页中提取出所有链接;3)到链接归一词典中读取归一字符串,从中提取出前缀字符串;4)判断步骤2)的链接中是否包含有步骤3)的前缀字符串,若有,则到链接归一词典中找出该前缀字符串对应的归一字符串、归一规则和网页类型,转到步骤5);若没有,则转到步骤3),处理下一条链接;5)根据步骤4)的归一规则,生成该链接的归一字符串,并与步骤4)的归一字符串进行比对,若相同,则将步骤4)的网页类型赋给该链接,并将该链接传给网络蜘蛛;若不同,则放弃该链接;6)重复步骤2)至5),直至网络蜘蛛完成全部抓取工作;所述步骤1)中,归一字符串的生成方法,包括以下步骤:分析所需网页类型的链接命名规律;将链接中代表站点部分的字符串去掉,剩下的字符串按照指定分隔符分段切分成字符子串;所述分隔符为字符.,=?&/‑_#中的任意一种;对链接中发生变化部分的字符子串进行归一,并保存归一字符串;所述归一的方法,包括以下步骤:将字符划分为数字、字母和其他字符三种,分别用不同的归一字符表示;连续多个相同的归一字符合并;所述归一规则至少包含有一个子规则,每个子规则对应一个字符子串,并记录有该字符子串的归一类型;所述归一类型分为三种:数字串的归一、字母串的归一和其他字符串的归一,分别用不同的字符表示;所述步骤2)中,提取链接的方法是:在页面内寻找以字符串<a href=″开始,以字符串″>结束的部分,从中提取出链接;所述步骤3)中,提取前缀字符串的方法,包括以下步骤:在归一字符串中,从左至右,检测字符@、#或&出现的位置,以这三类字符首次出现的位置为尾部,截断该归一字符串,保存在前缀字符串中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010590389.1/,转载请声明来源钻瓜专利网。