[发明专利]基于稀疏隧道的主题网页爬取方法无效
申请号: | 201010196540.3 | 申请日: | 2010-06-08 |
公开(公告)号: | CN101872357A | 公开(公告)日: | 2010-10-27 |
发明(设计)人: | 林怀忠;蒋雨倩 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于稀疏隧道的主题网页爬取方法。目前的专业网络蜘蛛通常使用隧道技术来爬取主题相关的网页,隧道技术在扩大搜索范围时引进了“噪音”,需要处理的无关网页以指数递增,从而增加了网络的负载和本地负担。本发明针对上述缺点,对隧道技术进行改进,将网络社区分成三种:主题相关、无关和未知类型。对主题相关的网络社区不做限制,对主题无关的网络社区通过建立网络社区黑名单禁止专业网络蜘蛛进入,对未知类型的网络社区控制专业网络蜘蛛在该网络社区中的路径数量。本发明使得专业网络蜘蛛能够在整个网络中有选择性地探索未知网页,避开了大量无关网页的下载,在保证网页质量的前提下有效地提高了专业网络蜘蛛的准确率和效率。 | ||
搜索关键词: | 基于 稀疏 隧道 主题 网页 方法 | ||
【主权项】:
一种基于稀疏隧道的主题网页爬取方法,其特征在于包括以下步骤:1)从存放初始爬取网址的队列开始,对队列中的网址的主题相关度进行预测,并根据预测值的高低进行调度,预测值高的网址具有更高的优先权,爬虫按照优先权的高低顺序下载网址所指定的网页;2)从所指定的网页中提取网址,判别网址是否指向网络社区黑名单中的某个站点,若是,则放弃该网址;3)对于没有指向网络社区黑名单中站点的网址,计算该网址的穿越步长,穿越步长是一个整数,代表了主题相关的最近的祖先网页到本网页长度,判断该穿越步长是否超过一个指定的步长阈值K,K为1~30,如果超过步长阈值K,表明已经穿越了连续K个不相关的网页,应该放弃这条路径,则放弃该网址;4)将路径没有超过步长阈值K的网址分为两部分,一部分是指向主题相关的网络社区,对应网址的穿越步长为0,另一部分则是指向未知类型的网络社区,对应网址的穿越步长大于等于1。将指向主题相关的网络社区的网址直接放入队列中;对于指向未知类型的网络社区的网址,计算在队列中与该网址具有相同站点的网址数,限定该网址数不能超过一个数量阈值R,R为15,超过数量阈值R的放弃该网址,没有超过数量阈值R的将该网址放入队列中;5)从队列中取出主题相关度值最高的网址,下载指定的网页,并重复步骤2)~步骤5),直到队列为空。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010196540.3/,转载请声明来源钻瓜专利网。