[发明专利]对网页抓取进行优化的方法和装置有效
申请号: | 201310289030.4 | 申请日: | 2013-07-10 |
公开(公告)号: | CN103399872A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 刘晓辉 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝;董垚 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 抓取 进行 优化 方法 装置 | ||
1.一种对网页抓取进行优化的装置,包括:
网页抓取器,适于抓取统一资源定位符URL对应的网页,并将抓取到的网页存储到网页数据库;
网页数据库,适于存储所述抓取到的网页;
内容对比器,适于对抓取的网页的页面中内容进行比较,查找出页面内容相同的重复网页;
归一化规则生成器,适于将所述重复网页的URL进行比较,生成用于将重复网页URL转换为同一URL的归一化规则;
归一化规则库,适于将生成的归一化规则组成归一化规则库并保存;
所述网页抓取器,进一步适于应用归一化规则库中归一化规则对待抓取网页的URL进行归一化,利用归一化后的URL进行网页抓取。
2.根据权利要求1所述的装置,其中,
所述归一化规则生成器,适于对所述重复网页URL中属于顶级域名或首页类的URL进行统计,分析得出所述重复网页所属网站的多个域名,在所述多个域名中,根据域名的权重值选择出一域名作为目的域名,生成将所述多个域名转换为所述目的域名的归一化规则。
3.根据权利要求1或2所述的装置,其中,
所述内容对比器,适于对于抓取的网页,根据网页的页面中内容计算网页的特征码,比较网页的特征码,查找出特征码相同的网页作为重复网页。
4.根据权利要求3所述的装置,其中,
所述内容对比器,适于从所述网页的页面中抽取网页的标题和/或网页正文中指定字段,组成字符串,对所述字符串进行散列运算生成散列值,以所述散列值作为所述网页的特征码。
5.根据权利要求1至4任一项所述的装置,其中,
所述装置还包括:URL数据库,
所述URL数据库,适于在所述归一化规则生成器生成归一化规则后,使用所述归一化规则将重复网页的URL进行归一化,保存归一化前和归一化后的URL;
所述装置还包括:校验器,
所述校验器,适于定期使用归一化规则库中归一化规则将所述URL数据库中的归一化前的URL进行归一化,判断该归一化后的URL与所述URL数据库中的归一化后的URL是否相同,如果不同,则做出归一化规则需要修正的提示;和/或
所述校验器,适于定期指示所述网页抓取器抓取所述URL数据库中归一化前和归一化后的URL的网页,通过所述内容对比器判断抓取的网页内容是否相同,如果不同,则做出归一化规则需要修正的提示。
6.一种对网页抓取进行优化的方法,所述方法包括:
对抓取的网页的页面内容进行比较,查找出页面内容相同的重复网页;
将所述重复网页的统一资源定位符URL进行比较,生成用于将重复网页的URL转换为同一URL的归一化规则;
应用所述归一化规则对待抓取网页的URL进行归一化,对归一化后的URL进行网页抓取。
7.根据权利要求6所述的方法,其中,
所述将所述重复网页的统一资源定位符URL进行比较,生成用于将重复网页URL转换为同一URL的归一化规则进一步包括:
对所述重复网页URL中属于顶级域名或首页类的URL进行统计,分析得出所述重复网页所属网站的多个域名;
在所述多个域名中,根据域名的权重值选择出一域名作为目的域名;
生成将所述多个域名转换为所述目的域名的归一化规则。
8.根据权利要求6或7所述的方法,其中,
所述对抓取的网页的页面内容进行比较,查找出页面内容相同的重复网页进一步包括:
对于抓取的网页,根据网页的页面中内容计算网页的特征码;
比较网页的特征码,查找出特征码相同的网页作为重复网页。
9.根据权利要求8所述的方法,其中,
所述根据网页的页面中内容计算网页的特征码进一步包括:
从所述网页的页面中抽取网页的标题和/或网页正文中指定字段,组成字符串;
对所述字符串进行散列运算生成散列值,以所述散列值作为所述网页的特征码。
10.根据权利要求6至9任一项所述的方法,其中,
所述生成用于将重复网页URL转换为同一URL的归一化规则后还包括:
使用所述归一化规则将重复网页的URL进行归一化,保存归一化前和归一化后的URL;
所述方法还包括:
定期使用生成的归一化规则将保存的归一化前的URL进行归一化,判断该归一化后的URL与保存的归一化后的URL是否相同,如果不同,则做出归一化规则需要修正的提示;和/或
定期抓取保存的归一化前和归一化后的URL的网页,判断抓取的网页内容是否相同,如果不同,则做出归一化规则需要修正的提示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310289030.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:推导运动向量预测子的方法与装置
- 下一篇:一种数据通信方法及系统