[发明专利]基于视觉的web页面萃取方法有效
申请号: | 201110171536.6 | 申请日: | 2011-06-23 |
公开(公告)号: | CN102253979A | 公开(公告)日: | 2011-11-23 |
发明(设计)人: | 王东胜 | 申请(专利权)人: | 天津海量信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙) 11381 | 代理人: | 陈曦 |
地址: | 300384 天津市南开区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视觉 web 页面 萃取 方法 | ||
技术领域
本发明涉及一种web页面萃取方法,尤其涉及一种基于视觉分析对web页面进行分解,从中提取有价值数据的web页面内容萃取方法,属于网页信息采集技术领域。
背景技术
目前,随着互联网的高速发展,web网络已经成为世界上最大的信息来源。web网络的发展给人类生活带来了巨大的方便,人们可以跨越时间和空间界限来共享大量信息。但是,整个web网络是由无数的web页面构成的。web页面的海量性、多样性、动态性和半结构化等特性增加了对其内容进行自动处理的难度。如何有效获取这些web页面中的内容为我们所用仍然是大家面临的共同问题。
在专利号为ZL 200410057064.1的中国发明专利中,富士通株式会社提出了一种网页信息块提取装置和方法。在该发明中,首先生成网页的结构信息块树,并对结构信息块进行分类归并和合并,对结果块的语义进行标记,从而根据内容和功能把网页分割为信息块。根据该技术方案,网页处理的粒度从整个页面扩展为页面内的信息块,使网页更容易由机器处理。
在申请号为200910139745.5的中国发明专利申请中,富士通株式会社进一步提出了一种网页内容提取方法和装置,其中该网页内容提取方法包括如下步骤:对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;对每个布局块进行光学字符识别,以生成所述布局块的识别文本;对所述网页进行分析,以建立所述网页的文档对象模型树;利用所述文档对象模型树中的文本节点的真实文本与所述布局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。该技术方案开创性地融合了图像布局分析和自然语言处理的相关技术,形成了一个全自动、高效、准确的网页内容提取方案。
另外,在专利号为ZL 200810066432.7的中国发明专利中,腾讯公司也提出了一种互联网网页清洗方法。该方法包括下述步骤:分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类;根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。
发明内容
本发明所要解决的技术问题在于提供一种基于视觉分析的web页面萃取方法。该方法利用视觉因素对web页面进行分析,可以有效提取web页面中的有价值数据。
为实现上述的发明目的,本发明采用下述的技术方案:
一种基于视觉分析的web页面萃取方法,其特征在于包括如下步骤:
(1)确认web页面中给定的网页地址已经下载完成,并且经完整展示后生成DOM树;
(2)基于所述DOM树将web页面拆分成在视觉上无法进一步拆分的块元素;
(3)从主体块在所述DOM树中对应的根节点出发,遍历各个视觉块在所述DOM树中对应的块节点,从而获得所述web网页中的有价值数据。
其中,在步骤(1)中,在web页面中的IFame、Frame已经下载完成,所需要的JavaScript、CSS已经下载完成,图片参数已经获得且Ajax已经执行完成的情况下,进入步骤(2)。
所述步骤(2)中,根据所述DOM树中的标签名称决定所述块元素是否进行拆分。
或者,根据边框内容决定所述块元素是否进行拆分。
或者,根据背景色决定所述块元素是否进行拆分。
或者,根据标签内部是否有明确的分割条决定所述块元素是否进行拆分。
所述步骤(2)中,对于标签名称一样、类别相同,字体、字号、字 重、颜色都相似的相似块进行合并。
所述步骤(3)中,在有价值数据为标题的情况下,对块节点中包括长度、字号、字重、对齐方式、文本长度在内的各项内容进行分别加权,认定其中权值最大的视觉块为标题块。
所述步骤(3)中,在有价值数据为正文的情况下,首先以所述标题块为基础向下扫描,直到扫描到明确的结束块或者扫描完主体块为止;
其次,推测统计文字信息;
再次,找到符合统计要求的主体字符,以背景与主体块背景一致的字符作为正文的开始,接着遍历所述标题块在所述DOM树中对应节点的兄弟节点,在满足预设条件后认为找到正文的结尾处;
最后,合并正文开始处到结尾处为正文块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津海量信息技术有限公司,未经天津海量信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110171536.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种利用位置信息实现图像搜索的方法和系统
- 下一篇:一种进程关闭方法