[发明专利]一种网页的正文抽取方法有效
申请号: | 200810223791.9 | 申请日: | 2008-10-13 |
公开(公告)号: | CN101727461A | 公开(公告)日: | 2010-06-09 |
发明(设计)人: | 郭岩;丁国栋;张刚 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 正文 抽取 方法 | ||
技术领域
本发明涉及网络信息抽取技术领域,特别是一种网页的正文抽取方 法。
背景技术
网络的飞速发展带来了海量的网络信息,如何抽取所需要的网络信息 越来越被人们所关注。网络信息抽取是指从网页这样的半结构化文档中抽 取出结构化信息。这些网页往往由服务器端的应用程序自动生成。网络信 息抽取而生成的结构化信息为网络挖掘、网络检索等重要网络应用提供了 最基础的分析数据。因此,网络信息抽取方法的研究具有非常重要的现实 意义。
网络信息抽取的对象可以分为两大类:一类是抽取网页中的特定知 识,即特定领域、特定网站、或特定格式的信息,如商品信息等;另一类 是抽取网页中的内容,即主题内容或兴趣区域等。本发明的一种网页的正 文抽取方法属于后一类。
互联网上的很多网页主要由这几类信息组成:导航信息、网页标题、 网页正文、广告信息、版权信息和相关链接等。其中,网页要表达的信息 主要集中在网页标题和网页正文中,尤其是网页正文中。因此,信息检索、 自动分类、话题跟踪、机器翻译和文本摘要等重要的网络信息处理应用主 要关注网页中的标题和正文,尤其是正文。然而,导航信息、广告信息、 版权信息和相关链接等噪音信息在很大程度上干扰了网页信息的利用效 果。例如,这些噪音信息会影响信息检索的效率、导致信息检索准确率的 下降等。因此,如何快速准确地从网页中抽取出正文,去除噪音信息,提 高网页的信息质量,已经成为信息检索等重要网络信息处理系统的必不可 少的基础工作。
现有网页正文的抽取方法从使用的技术角度可以分为以下几类:
基于包装器的网页正文抽取方法:包装器是一段程序,它根据一定的 信息模式识别规则,从特定的信息源中抽取相关内容。由于网页结构的复 杂性及不规范性,一个包装器的实现一般只能针对一个信息源。而要处理 的网页往往来自大量的不同信息源,如果采用这类方法,包装器的生成和 维护代价是巨大的。因此,这类方法对于网页的正文抽取是不合适的。
基于数据挖掘的网页正文抽取方法:这类方法把数据挖掘的一些技术 (如决策树、聚类、分类等技术)应用到对网页的正文抽取中。这类方法 往往能够获得较高的抽取准确率,但普遍存在着需要人工标注、算法复杂 度高的缺点。要处理的网页往往是大规模的,如果采用这类方法,在抽取 效率方面往往不能满足需求。
基于统计的网页正文抽取方法:这类方法不需要针对不同的数据源构 造不同的包装器,适应性比较好。现有的基于统计的网页正文抽取方法往 往采用以下两种思路:
一种思路是:首先将网页中的内容按照一定标准分成若干内容块;然 后根据一些启发式信息从所有内容块中识别出真正包含正文的信息块,剔 除噪音块。
另一种思路是:首先将网页表达成一棵树,如文档对象模型(document object model,DOM)树、标签树、语义DOM树等。然后根据一些启发式 信息对树中的噪音节点进行过滤或剪枝,具体的,遍历树中的所有节点, 对每个节点用事先预定好的启发式规则(或标准)来衡量,看该节点是否 承载正文的节点;如果是,则保留该节点;如果不是,则将该节点标识为 噪音节点(表示废除该节点,称为过滤)或从树中砍掉以该节点为根的子 树(称为剪枝)。最后树中保留的节点所承载的文本就是要抽取的正文。
采用以上两种思路的基于统计的网页正文抽取方法普遍存在以下不 足:
方法中通常需要使用阈值来帮助剔除噪音信息,这就大大削弱了方法 的适应性。大多数方法都采用单一阈值,但是,因为要处理的网页往往来 自不同的信息源,且这些信息源往往是异构的,所以要想对每个信息源都 能获得最好的抽取结果,用单一的阈值显然是不合理的,会影响抽取的精 确度。有的方法提供了阈值学习机制,从而能够动态调整阈值,但这显然 又增加了整个抽取方法的复杂度,降低了抽取速度。
有的方法为了剔除噪音信息,使用了一些视觉特征,例如字体大小、 背景颜色、区域的坐标、位置等。但网页设计的复杂性,加上要处理的网 页往往来自不同的信息源,且这些信息源往往是异构的,导致需要人工不 断总结调整可利用的具有共性的视觉特征,这就增加了整个抽取方法的复 杂度,并且在一定程度上影响了抽取的精度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810223791.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种坐席班务安排的方法和装置
- 下一篇:一种火花塞