[发明专利]一种基于功能区域识别的网页切分方法及装置有效
申请号: | 201310176551.9 | 申请日: | 2013-05-14 |
公开(公告)号: | CN103440239A | 公开(公告)日: | 2013-12-11 |
发明(设计)人: | 郭瑞;牛正雨;吴一璞;李乐丁 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 罗延红;鲁恭诚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 公开了一种基于功能区域识别的网页切分方法及装置。所述方法包括:针对网页生成文档对象模型(DOM)树,DOM树包括用于网页展示的内容;提取DOM树节点的位置信息和大小信息;解析出层叠样式表(CSS)属性中的边界边缘属性和栏外空白区属性;利用网页分块标注算法对网页进行标注,以标注出功能和语义区,并将标注的块标记为粒度候选;根据DOM树结构在剩余网页中扫描图文混排块,将扫描出的图文混排块标记为粒度候选;扫描剩余的块,如果扫描出的块的边界边缘属性和栏外空白区属性不为0,则将所述块标记为粒度候选;将DOM树中剩余没有标记的块标记为粒度候选。 | ||
搜索关键词: | 一种 基于 功能 区域 识别 网页 切分 方法 装置 | ||
【主权项】:
一种基于功能区域识别的网页切分方法,所述方法包括:针对网页生成文档对象模型(DOM)树,DOM树包括用于网页展示的内容;提取DOM树节点的位置信息和大小信息;解析出层叠样式表(CSS)属性中的边界边缘属性和栏外空白区属性;利用网页分块标注算法对网页进行标注,以标注出功能和语义区,并将标注的块标记为粒度候选;根据DOM树结构在剩余网页中扫描图文混排块,将扫描出的图文混排块标记为粒度候选;扫描剩余的块,如果扫描出的块的边界边缘属性和栏外空白区属性不为0,则将所述块标记为粒度候选;将DOM树中剩余没有标记的块标记为粒度候选。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310176551.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种缝纫控制系统和缝纫设备
- 下一篇:一种丁腈橡胶的制备方法