[发明专利]一种基于HTML标签的网页正文提取方法及装置无效
申请号: | 201210213554.0 | 申请日: | 2012-06-27 |
公开(公告)号: | CN102779169A | 公开(公告)日: | 2012-11-14 |
发明(设计)人: | 刘迎春;魏华峰;方筠捷 | 申请(专利权)人: | 江苏新瑞峰信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212051 江苏省镇江市润州区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 html 标签 网页 正文 提取 方法 装置 | ||
技术领域
本发明涉及计算机网络中网页文字信息处理领域,特别涉及网页正文的提取方法和装置。
背景技术
随着互联网的不断发展,Web页面数量急剧大幅增加,网页已经成为人们最为巨大和广泛的信息来源。许多有用的信息淹没在浩如烟海的Web页面中,网页中的正文数据往往被许多噪音数据所干扰,如广告、链接、产品推荐、导航条、版权说明等。如何帮助人们迅速提取有效的信息,研究和探索各种高效、实用的Web网页正文数据提取技术对于Web数据挖掘具有非常重要的意义,成为一个非常重要的问题。
针对HTML网页的特点,需要利用网页结构布局信息对网页进行区域分割,模拟IE浏览器的显示方式,对网页进行解析。系统根据人类的视觉原理,把网页解析处理的结果进行分块,然后根据用户需求,提取用户需要的相关网页块的内容。因此网页分割是从网页中提取有效信息的常用 手段,当前比较常用的网页分割方法主要有一下2种:
1、基于位置关系的分割法:该方法利用网页页面的布局进行分块,将一个网页分成上、下、左、右和中间5个部分,再根据这5个部分的特征进行分类。但是,实际的网页结构要复杂的多,这种基于网页布局的方法并不适用于所有的网页,而且这种方法切分的网页粒度比较粗,有可能破坏网页本身的内在特征,难以充分包括整个网页的语义特征。中国科学院声学研究所对上述方法进行了改进,提出了一种基于快速傅里叶变换的网页正文提取方法(专利申请号为200710063182.7),用网页的频域特征来分割页面、过滤噪声,进而提取有效信息,实验结果表明,此种方法能比较准确的对“正文式”网页的有效信息进行提取。但该方法必须局限在基于同一个模板的网页集,而Web上的网页模板不计其数,因此该方法显然不够通用。
2、基于文档对象模型(DOM,Document Object Model)的分割法:该方法通过找出网页HTML文档里的特定标签,利用标签项将HTML文档表示成一个DOM树的结构,然后根据特定标签包括heading、table、paragraph和list等来提取有效的树结点数据。但是,在许多情况下,文档对象模型不是用来表示网页内容结构的,所以利用该方法不能够准确地对网页中各分块的语义信息进行辨别。莫雅静对上述方法进行了改进,提出了一种基于统计回溯定位的正文提取方法(专利申请号为201110326226.7),在一定范围内能够较好地提取网页正文,但是其有一定的局限性,这种方法的缺点是不能高效识别正文区域块和删除正文中的无用链接。
以上方法都是对HTML语义结构进行分析,找到网页正文所在的位置进行处理,提取出网页的正文。但这些方法对于网页结构出现非常规现象时,效果不好。比如网页的正文极短,而该网页中的广告栏含有的文字量很大,这样会把广告所在的部分当成了正文部分提取出来,造成提取失效。
发明内容
本发明所提出的一种基于HTML标签的网页正文提取方法能够比较准确地识别出非常规的网页结构中的网页正文,提高提取网页正文内容的通用性、准确率和效率。由于本发明基于HTML规范,提取后的网页内容和结构与源网页一致,有很高的可扩展性。因此,本发明具有可观的应用价值,它不仅满足PAD和手机用户的即时访问需求,又可应用于信息检索领域的自动文摘和自动分类等系统。
本发明的主要思想是:对普遍拥有相似结构的网页进行分块,先将整个网页分成head和body两个区域块,然后分别对这两个区域块中的HTML标签语义进行分析,由净化处理单元删除无用的标签元素及其内容,进而提取出网页的正文内容。
超文本标记语言(hyper text markup language,HTML)是网页编写的基本语言。要实现Web 网页的正文提取,必须对HTML的语法结构有个清楚的认识。
对于搜狐、新浪、网易等包含大量信息的大型门户网站而言,其各类网页中包含信息标题、文摘、超链接等可供用户检索用的有用信息,且这类网站结构稳定、类似具有普遍代表性,所以只要对这些网站信息做到高效滤除,则等于可以对这类网站的信息做到批量处理的目的。经对比得到该类网站普遍拥有相似的结构如下:
<html><head>
网页标题及其它与网页标题无关的信息
</head><body>
正文标题,正文内容及其它与网页正文标题,正文内容无关的信息
</body></html>
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏新瑞峰信息科技有限公司,未经江苏新瑞峰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210213554.0/2.html,转载请声明来源钻瓜专利网。