[发明专利]一种网页的正文抽取方法有效

申请号：	200810223791.9	申请日：	2008-10-13
公开（公告）号：	CN101727461A	公开（公告）日：	2010-06-09
发明（设计）人：	郭岩;丁国栋;张刚	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京泛华伟业知识产权代理有限公司 11280	代理人：	王勇
地址：	100190 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页正文抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及网络信息抽取技术领域，特别是一种网页的正文抽取方法。

背景技术

网络的飞速发展带来了海量的网络信息，如何抽取所需要的网络信息越来越被人们所关注。网络信息抽取是指从网页这样的半结构化文档中抽取出结构化信息。这些网页往往由服务器端的应用程序自动生成。网络信息抽取而生成的结构化信息为网络挖掘、网络检索等重要网络应用提供了最基础的分析数据。因此，网络信息抽取方法的研究具有非常重要的现实意义。

网络信息抽取的对象可以分为两大类：一类是抽取网页中的特定知识，即特定领域、特定网站、或特定格式的信息，如商品信息等；另一类是抽取网页中的内容，即主题内容或兴趣区域等。本发明的一种网页的正文抽取方法属于后一类。

互联网上的很多网页主要由这几类信息组成：导航信息、网页标题、网页正文、广告信息、版权信息和相关链接等。其中，网页要表达的信息主要集中在网页标题和网页正文中，尤其是网页正文中。因此，信息检索、自动分类、话题跟踪、机器翻译和文本摘要等重要的网络信息处理应用主要关注网页中的标题和正文，尤其是正文。然而，导航信息、广告信息、版权信息和相关链接等噪音信息在很大程度上干扰了网页信息的利用效果。例如，这些噪音信息会影响信息检索的效率、导致信息检索准确率的下降等。因此，如何快速准确地从网页中抽取出正文，去除噪音信息，提高网页的信息质量，已经成为信息检索等重要网络信息处理系统的必不可少的基础工作。

现有网页正文的抽取方法从使用的技术角度可以分为以下几类：

基于包装器的网页正文抽取方法：包装器是一段程序，它根据一定的信息模式识别规则，从特定的信息源中抽取相关内容。由于网页结构的复杂性及不规范性，一个包装器的实现一般只能针对一个信息源。而要处理的网页往往来自大量的不同信息源，如果采用这类方法，包装器的生成和维护代价是巨大的。因此，这类方法对于网页的正文抽取是不合适的。

基于数据挖掘的网页正文抽取方法：这类方法把数据挖掘的一些技术 (如决策树、聚类、分类等技术)应用到对网页的正文抽取中。这类方法往往能够获得较高的抽取准确率，但普遍存在着需要人工标注、算法复杂度高的缺点。要处理的网页往往是大规模的，如果采用这类方法，在抽取效率方面往往不能满足需求。

基于统计的网页正文抽取方法：这类方法不需要针对不同的数据源构造不同的包装器，适应性比较好。现有的基于统计的网页正文抽取方法往往采用以下两种思路：

一种思路是：首先将网页中的内容按照一定标准分成若干内容块；然后根据一些启发式信息从所有内容块中识别出真正包含正文的信息块，剔除噪音块。

另一种思路是：首先将网页表达成一棵树，如文档对象模型(document object model，DOM)树、标签树、语义DOM树等。然后根据一些启发式信息对树中的噪音节点进行过滤或剪枝，具体的，遍历树中的所有节点，对每个节点用事先预定好的启发式规则(或标准)来衡量，看该节点是否承载正文的节点；如果是，则保留该节点；如果不是，则将该节点标识为噪音节点(表示废除该节点，称为过滤)或从树中砍掉以该节点为根的子树(称为剪枝)。最后树中保留的节点所承载的文本就是要抽取的正文。

采用以上两种思路的基于统计的网页正文抽取方法普遍存在以下不足：

方法中通常需要使用阈值来帮助剔除噪音信息，这就大大削弱了方法的适应性。大多数方法都采用单一阈值，但是，因为要处理的网页往往来自不同的信息源，且这些信息源往往是异构的，所以要想对每个信息源都能获得最好的抽取结果，用单一的阈值显然是不合理的，会影响抽取的精确度。有的方法提供了阈值学习机制，从而能够动态调整阈值，但这显然又增加了整个抽取方法的复杂度，降低了抽取速度。

有的方法为了剔除噪音信息，使用了一些视觉特征，例如字体大小、背景颜色、区域的坐标、位置等。但网页设计的复杂性，加上要处理的网页往往来自不同的信息源，且这些信息源往往是异构的，导致需要人工不断总结调整可利用的具有共性的视觉特征，这就增加了整个抽取方法的复杂度，并且在一定程度上影响了抽取的精度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所，未经中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810223791.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种网页的正文抽取方法有效

专利文献下载