[发明专利]一种检测网页隐藏内容的方法,及设备有效
申请号: | 201210397725.X | 申请日: | 2012-10-18 |
公开(公告)号: | CN103778365A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 李永健;周吉文;庾洋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F21/51 | 分类号: | G06F21/51;G06F21/56 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 唐华明 |
地址: | 518031 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检测 网页 隐藏 内容 方法 设备 | ||
1.一种检测网页隐藏内容的方法,其特征在于,包括:
通过加载页面,生成页面的描述信息和页面的布局信息;
比较所述页面的描述信息以及所述页面的布局信息,确定页面的描述信息的所有标签节点是否均包含在页面的布局信息中;
若否,则确定页面的描述信息中未包含在页面的布局信息中的标签节点为隐藏内容。
2.根据权利要求1所述方法,其特征在于,所述比较所述页面的描述信息以及所述页面的布局信息包括:
在生成页面的描述信息和页面的布局信息,且经设定延迟时间之后,比较所述页面的描述信息以及所述页面的布局信息。
3.根据权利要求1所述方法,其特征在于,所述加载页面包括:使用排版引擎加载页面,并且在采用排版引擎加载页面之前还包括:
将排版引擎的用户代理字符串设置为搜索引擎。
4.根据权利要求3所述方法,其特征在于,所述使用排版引擎加载页面包括:
使用排版引擎加载统一资源定位符URL,并解析返回的超文本标记语言HTML代码,并加载所述HTML代码对应页面中的其他元素。
5.根据权利要求3或4所述方法,其特征在于,
所述排版引擎为开源浏览器排版引擎;所述页面的描述信息为文档对象模型DOM树;所述页面的布局信息为描绘render树。
6.根据权利要求1至4任意一项所述方法,其特征在于,还包括
若所述隐藏内容为具有指向URL功能的标签节点,且所述具有指向URL功能的标签节点指向外链,则确定所述页面被挂黑链。
7.一种检测网页隐藏内容的设备,其特征在于,包括:
加载单元,用于通过加载页面,生成页面的描述信息和页面的布局信息;
比较单元,用于比较所述页面的描述信息以及所述页面的布局信息,确定页面的描述信息的所有标签节点是否均包含在页面的布局信息中;
内容确定单元,用于若比较确定单元确定为否,则确定页面的描述信息中未包含在页面的布局信息中的标签节点为隐藏内容。
8.根据权利要求7所述设备,其特征在于,
所述比较单元,具体用于在生成页面的描述信息和页面的布局信息,且经设定延迟时间之后,比较所述页面的描述信息以及所述页面的布局信息,确定页面的描述信息的所有标签节点是否均包含在页面的布局信息中。
9.根据权利要求7所述设备,其特征在于,所述加载单元,具体用于使用排版引擎加载页面;所述设备还包括:
加载控制单元,用于在所述使用排版引擎加载页面之前,将排版引擎的用户代理字符串设置为搜索引擎。
10.根据权利要求9所述设备,其特征在于,
所述加载单元,具体用于使用排版引擎加载统一资源定位符URL,并解析返回的超文本标记语言HTML代码,并加载所述HTML代码对应页面中的其他元素。
11.根据权利要求9或10所述设备,其特征在于,
所述加载单元,具体用于使用开源浏览器排版引擎加载页面,生成文档对象模型DOM树和描绘render树;
所述比较单元,具体用于比较所述DOM树以及所述render树,确定DOM树的所有标签节点是否均包含在render树中;
所述内容确定单元,具体用于若比较确定单元确定为否,则确定DOM树中未包含在render树中的标签节点为隐藏内容。
12.根据权利要求7至10任意一项所述设备,其特征在于,还包括
内容确定子单元,用于若所述隐藏内容为具有指向URL功能的标签节点,且所述具有指向URL功能的标签节点指向外链,则确定所述页面被挂黑链。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210397725.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种加氢生产高粘度指数润滑油基础油方法
- 下一篇:一种不饱和醇的制备方法
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法