[发明专利]确定移动站点抓取配额的方法和装置有效
申请号: | 201410779279.8 | 申请日: | 2014-12-15 |
公开(公告)号: | CN104392000B | 公开(公告)日: | 2016-10-12 |
发明(设计)人: | 王智广 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲;刘云贵 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 移动 站点 抓取 配额 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,具体涉及一种确定移动站点抓取配额的方法和装置。
背景技术
搜索引擎通过蜘蛛程序抓取互联网网页内容,收录网页至索引库中。搜索引擎在收录互联网资源的时候,需要根据站点的情况、用户访问情况、搜索引擎的需求情况等来计算蜘蛛每天需要访问站点的频次。对不同的站点,搜索引擎的蜘蛛的访问频次是不同的。搜索引擎每天需要访问站点的频次数称为蜘蛛程序分配给此站点的配额。
PC站点的配额计算已经有了一套比较成熟的方法,因为PC站点的数据比较齐全,比如用户的访问情况、用户在搜索引擎的搜索点击情况、蜘蛛访问站点的历史信息、站点质量信息等。搜索引擎根据站点的上述数据为站点计算合适的配额。
对移动站点,现有技术一般采用与PC站点相同的方式,根据已有的移动站点配额数据,为移动站点配额计算设定一个默认值,然后逐渐调整。但对于移动站点,尤其是刚刚开始收录移动资源的搜索引擎,用于配额计算的数据较少,不能计算出合适的抓取配额。蜘蛛对网页进行抓取时,会占用网站服务器的资源,带宽等。如果配额过高,抓取行为占据过多服务器资源,就可能影响网站的正常业务。而且,网站服务器还可能监控抓取行为,抓取频次过高时,限制或禁止蜘蛛的抓取,使得搜索引擎无法及时收录该网页。而配额过低时,抓取效率较低,网页收录不及时,无法为用户提供最新的搜索结果。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定移动站点抓取配额的方法和装置。
根据本发明的一个方面,提供了一种确定移动站点抓取配额的方法,包括:查找与目标移动站点对应的PC站点;获取所述PC站点的抓取配额;根据所述PC站点的抓取配额确定所述目标移动站点的抓取配额。
可选地,所述查找与目标移动站点对应的PC站点进一步包括:
根据所述目标移动站点的URL获取目标移动站点的域名特征;
获取具有与所述目标移动站点相同域名特征的PC站点;
计算所述目标移动站点的内容与所述具有相同域名特征的PC站点的内容之间的相似度;
根据所述相似度确定与所述目标移动站点对应的PC站点。
可选地,获取所述PC站点的抓取配额进一步为:根据所述PC站点的配额计算信息计算所述PC站点的抓取配额;
可选地,所述PC站点的配额计算信息包括以下信息的一种或多种:PC站点的用户访问数据,PC站点在搜索结果中的点击量,PC站点的网页质量信息,以及搜索引擎对PC站点的历史抓取记录。
可选地,所述根据所述PC站点的配额计算信息计算所述PC站点的抓取配额进一步包括:
根据所述PC站点的用户访问数据,确定所述PC站点的抓取承受流量;
根据所述PC站点内网页的网页质量信息,确定所述PC站点的任务流量;
根据所述PC站点的抓取承受流量和所述PC站点的任务流量,确定所述PC站点的抓取配额。
可选地,所述根据所述PC站点的抓取配额确定所述目标移动站点的抓取配额进一步包括:
将所述PC站点的抓取配额乘以预设系数作为所述目标移动站点的初始抓取配额。
可选地,所述方法还包括:
根据所述目标移动站点的配额计算信息调整所述预设系数;
可选地,所述目标移动站点的配额计算信息包括以下信息的一种或多种:目标移动站点的用户访问数据,目标移动站点在搜索结果中的点击量,目标移动站点的网页质量信息,以及搜索引擎对目标移动站点的历史抓取记录。
根据本发明的另一方面,提供了一种确定移动站点抓取配额的装置,包括:
查找模块,适于查找与目标移动站点对应的PC站点;
获取模块,适于获取PC站点的抓取配额;
配额模块,适于根据PC站点的抓取配额计算目标移动站点的抓取配额。
可选地,所述查找模块进一步包括:
特征获取单元,适于根据所述目标移动站点的URL获取目标移动站点的域名特征;
查找单元,适于查找具有与所述目标移动站点相同域名特征的PC站点;
相似度计算单元,适于计算所述目标移动站点的内容与所述具有相同域名特征的PC站点的内容之间的相似度;
关联单元,适于根据所述相似度确定与所述目标移动站点对应的PC站点。
可选地,所述获取模块进一步适于:根据所述PC站点的配额计算信息计算所述PC站点的抓取配额;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410779279.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种橡皮囊成形薄壁零件的坯料制备方法
- 下一篇:一种模拟旅行过程的系统