[发明专利]对网页抓取进行优化的方法和装置有效

专利信息
申请号: 201310289030.4 申请日: 2013-07-10
公开(公告)号: CN103399872A 公开(公告)日: 2013-11-20
发明(设计)人: 刘晓辉 申请(专利权)人: 北京奇虎科技有限公司;奇智软件(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市隆安律师事务所 11323 代理人: 权鲜枝;董垚
地址: 100088 北京市西城区新*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网页 抓取 进行 优化 方法 装置
【权利要求书】:

1.一种对网页抓取进行优化的装置,包括:

网页抓取器,适于抓取统一资源定位符URL对应的网页,并将抓取到的网页存储到网页数据库;

网页数据库,适于存储所述抓取到的网页;

内容对比器,适于对抓取的网页的页面中内容进行比较,查找出页面内容相同的重复网页;

归一化规则生成器,适于将所述重复网页的URL进行比较,生成用于将重复网页URL转换为同一URL的归一化规则;

归一化规则库,适于将生成的归一化规则组成归一化规则库并保存;

所述网页抓取器,进一步适于应用归一化规则库中归一化规则对待抓取网页的URL进行归一化,利用归一化后的URL进行网页抓取。

2.根据权利要求1所述的装置,其中,

所述归一化规则生成器,适于对所述重复网页URL中属于顶级域名或首页类的URL进行统计,分析得出所述重复网页所属网站的多个域名,在所述多个域名中,根据域名的权重值选择出一域名作为目的域名,生成将所述多个域名转换为所述目的域名的归一化规则。

3.根据权利要求1或2所述的装置,其中,

所述内容对比器,适于对于抓取的网页,根据网页的页面中内容计算网页的特征码,比较网页的特征码,查找出特征码相同的网页作为重复网页。

4.根据权利要求3所述的装置,其中,

所述内容对比器,适于从所述网页的页面中抽取网页的标题和/或网页正文中指定字段,组成字符串,对所述字符串进行散列运算生成散列值,以所述散列值作为所述网页的特征码。

5.根据权利要求1至4任一项所述的装置,其中,

所述装置还包括:URL数据库,

所述URL数据库,适于在所述归一化规则生成器生成归一化规则后,使用所述归一化规则将重复网页的URL进行归一化,保存归一化前和归一化后的URL;

所述装置还包括:校验器,

所述校验器,适于定期使用归一化规则库中归一化规则将所述URL数据库中的归一化前的URL进行归一化,判断该归一化后的URL与所述URL数据库中的归一化后的URL是否相同,如果不同,则做出归一化规则需要修正的提示;和/或

所述校验器,适于定期指示所述网页抓取器抓取所述URL数据库中归一化前和归一化后的URL的网页,通过所述内容对比器判断抓取的网页内容是否相同,如果不同,则做出归一化规则需要修正的提示。

6.一种对网页抓取进行优化的方法,所述方法包括:

对抓取的网页的页面内容进行比较,查找出页面内容相同的重复网页;

将所述重复网页的统一资源定位符URL进行比较,生成用于将重复网页的URL转换为同一URL的归一化规则;

应用所述归一化规则对待抓取网页的URL进行归一化,对归一化后的URL进行网页抓取。

7.根据权利要求6所述的方法,其中,

所述将所述重复网页的统一资源定位符URL进行比较,生成用于将重复网页URL转换为同一URL的归一化规则进一步包括:

对所述重复网页URL中属于顶级域名或首页类的URL进行统计,分析得出所述重复网页所属网站的多个域名;

在所述多个域名中,根据域名的权重值选择出一域名作为目的域名;

生成将所述多个域名转换为所述目的域名的归一化规则。

8.根据权利要求6或7所述的方法,其中,

所述对抓取的网页的页面内容进行比较,查找出页面内容相同的重复网页进一步包括:

对于抓取的网页,根据网页的页面中内容计算网页的特征码;

比较网页的特征码,查找出特征码相同的网页作为重复网页。

9.根据权利要求8所述的方法,其中,

所述根据网页的页面中内容计算网页的特征码进一步包括:

从所述网页的页面中抽取网页的标题和/或网页正文中指定字段,组成字符串;

对所述字符串进行散列运算生成散列值,以所述散列值作为所述网页的特征码。

10.根据权利要求6至9任一项所述的方法,其中,

所述生成用于将重复网页URL转换为同一URL的归一化规则后还包括:

使用所述归一化规则将重复网页的URL进行归一化,保存归一化前和归一化后的URL;

所述方法还包括:

定期使用生成的归一化规则将保存的归一化前的URL进行归一化,判断该归一化后的URL与保存的归一化后的URL是否相同,如果不同,则做出归一化规则需要修正的提示;和/或

定期抓取保存的归一化前和归一化后的URL的网页,判断抓取的网页内容是否相同,如果不同,则做出归一化规则需要修正的提示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310289030.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top