[发明专利]网页检测方法和装置有效
申请号: | 201510922690.0 | 申请日: | 2015-12-14 |
公开(公告)号: | CN106874165B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 李新国;吴茜;张鹏霄 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 检测 方法 装置 | ||
1.一种网页检测方法,其特征在于,包括:
从目标网站中检测出在预设时间段内更新的目标网页;
对所述目标网页的访问数据进行解析,得到所述目标网页的访问参数,所述访问参数用于反映所述目标网页被访问的情况;
判断所述访问参数是否满足预设条件;以及
在判断出所述访问参数满足所述预设条件时,确定所述目标网页为有效更新的网页;
其中,从目标网站中检测出在预设时间段内更新的目标网页包括:
对所述目标网站在所述预设时间段内的访问日志进行解析,得到被访问网页的统一资源定位符;
逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。
2.根据权利要求1所述的方法,其特征在于,所述访问参数包括以下至少之一:访问次数、访问用户数量、访问时长,其中,判断所述访问参数是否满足预设条件包括以下至少之一:
判断所述访问次数是否超过第一预设阈值;
判断所述访问用户数量是否超过第二预设阈值;
判断所述访问时长是否超过第三预设阈值。
3.根据权利要求1所述的方法,其特征在于,逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页包括:
对所述被访问网页的统一资源定位符进行哈希编码,得到所述被访问网页的统一资源定位符的哈希值;
在预先设置的布隆过滤器中查询是否存在所述被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;
在查询出不存在所述被访问网页的统一资源定位符的哈希值时,确定该统一资源定位符的哈希值对应的网页为所述目标网页。
4.根据权利要求3所述的方法,其特征在于,在查询出不存在所述被访问网页的统一资源定位符的哈希值之后,所述方法还包括:
将所述被访问网页的统一资源定位符的哈希值存储到所述布隆过滤器中。
5.一种网页检测装置,其特征在于,包括:
检测单元,用于从目标网站中检测出在预设时间段内更新的目标网页;
解析单元,用于对所述目标网页的访问数据进行解析,得到所述目标网页的访问参数,所述访问参数用于反映所述目标网页被访问的情况;
判断单元,用于判断所述访问参数是否满足预设条件;以及
确定单元,用于在判断出所述访问参数满足所述预设条件时,确定所述目标网页为有效更新的网页;
其中,所述检测单元包括:
解析模块,用于对所述目标网站在所述预设时间段内的访问日志进行解析,得到被访问网页的统一资源定位符;
匹配模块,用于逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。
6.根据权利要求5所述的装置,其特征在于,所述访问参数以下至少之一:访问次数、访问用户数量、访问时长,其中,所述判断单元包括以下至少之一:
第一判断模块,用于判断所述访问次数是否超过第一预设阈值;
第二判断模块,用于判断所述访问用户数量是否超过第二预设阈值;
第三判断模块,用于判断所述访问时长是否超过第三预设阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510922690.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多工位底线绕线机
- 下一篇:一种自动剪线机构及缝纫机