[发明专利]基于视觉的web页面萃取方法有效

申请号：	201110171536.6	申请日：	2011-06-23
公开（公告）号：	CN102253979A	公开（公告）日：	2011-11-23
发明（设计）人：	王东胜	申请（专利权）人：	天津海量信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京汲智翼成知识产权代理事务所(普通合伙) 11381	代理人：	陈曦
地址：	300384 天津市南开区***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于视觉 web 页面萃取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种web页面萃取方法，尤其涉及一种基于视觉分析对web页面进行分解，从中提取有价值数据的web页面内容萃取方法，属于网页信息采集技术领域。

背景技术

目前，随着互联网的高速发展，web网络已经成为世界上最大的信息来源。web网络的发展给人类生活带来了巨大的方便，人们可以跨越时间和空间界限来共享大量信息。但是，整个web网络是由无数的web页面构成的。web页面的海量性、多样性、动态性和半结构化等特性增加了对其内容进行自动处理的难度。如何有效获取这些web页面中的内容为我们所用仍然是大家面临的共同问题。

在专利号为ZL 200410057064.1的中国发明专利中，富士通株式会社提出了一种网页信息块提取装置和方法。在该发明中，首先生成网页的结构信息块树，并对结构信息块进行分类归并和合并，对结果块的语义进行标记，从而根据内容和功能把网页分割为信息块。根据该技术方案，网页处理的粒度从整个页面扩展为页面内的信息块，使网页更容易由机器处理。

在申请号为200910139745.5的中国发明专利申请中，富士通株式会社进一步提出了一种网页内容提取方法和装置，其中该网页内容提取方法包括如下步骤：对网页的图片进行视觉布局分析，以将所述图片分割为至少一个布局块；对每个布局块进行光学字符识别，以生成所述布局块的识别文本；对所述网页进行分析，以建立所述网页的文档对象模型树；利用所述文档对象模型树中的文本节点的真实文本与所述布局块的识别文本之间的对应关系，将所述文档对象模型树中的每个文本节点映射到所述布局块之一中；以及至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。该技术方案开创性地融合了图像布局分析和自然语言处理的相关技术，形成了一个全自动、高效、准确的网页内容提取方案。

另外，在专利号为ZL 200810066432.7的中国发明专利中，腾讯公司也提出了一种互联网网页清洗方法。该方法包括下述步骤：分析输入的网页，对网页标签内容自动纠错，建立文档对象模型树；保留所述文档对象模型树中具有表示内容的HTML的块元素结点，生成与所述文档对象模型树对应的结构块树；在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类；根据输入的网页所属的网页类型，对其进行语义块分析，提取并输出重要块及其文本信息。

发明内容

本发明所要解决的技术问题在于提供一种基于视觉分析的web页面萃取方法。该方法利用视觉因素对web页面进行分析，可以有效提取web页面中的有价值数据。

为实现上述的发明目的，本发明采用下述的技术方案：

一种基于视觉分析的web页面萃取方法，其特征在于包括如下步骤：

(1)确认web页面中给定的网页地址已经下载完成，并且经完整展示后生成DOM树；

(2)基于所述DOM树将web页面拆分成在视觉上无法进一步拆分的块元素；

(3)从主体块在所述DOM树中对应的根节点出发，遍历各个视觉块在所述DOM树中对应的块节点，从而获得所述web网页中的有价值数据。

其中，在步骤(1)中，在web页面中的IFame、Frame已经下载完成，所需要的JavaScript、CSS已经下载完成，图片参数已经获得且Ajax已经执行完成的情况下，进入步骤(2)。

所述步骤(2)中，根据所述DOM树中的标签名称决定所述块元素是否进行拆分。

或者，根据边框内容决定所述块元素是否进行拆分。

或者，根据背景色决定所述块元素是否进行拆分。

或者，根据标签内部是否有明确的分割条决定所述块元素是否进行拆分。