[发明专利]一种从网页中抽取信息的方法及装置有效

申请号：	200910090455.6	申请日：	2009-08-12
公开（公告）号：	CN101996190A	公开（公告）日：	2011-03-30
发明（设计）人：	刘伟;万小军;杨建武;肖建国	申请（专利权）人：	北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	黄志华
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页抽取信息方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信息检索和数据集成技术领域，特别涉及一种从网页中抽取信息的方法及装置。

背景技术

Web自上世纪90年代初诞生以来便以惊人的速度发展，到目前Web已经成为了世界上最大的信息仓库，覆盖了现实世界的各个领域，成为了人类工作生活获取信息主要途径。Web信息的发布主要是以网页的形式实现，据最新的估计，Web中网页的数量已经超过了550个billion，也就是5500亿。

可见，网页虽然是信息非常重要的数据来源，但由于Web中网站数量众多，而且这些信息所在的网页通常会包还大量无用的噪音信息，严重影响对信息处理的效率和检索的质量。因此，手工方式的访问已经无法满足用户信息获取的需要，为了让用户更有效地访问和利用Web中海量的信息，目前，出现了各种Web信息搜索和集成相关的应用，例如：垂直搜索引擎、舆情分析等。

上述这些应用的一个必要步骤就是将所需的信息从网页中准确地抽取出来。但由于绝大部分网页都是以HTML语言编写，文档结构化程度很低，而且缺乏语义的连续性，网页的非结构化主要表现为：

1、信息的表现格式不一致，即表示相同类型语义的信息格式、表现形式多样性化，没有统一的标准，例如：在网页中使用的字体以及在页面中位置繁杂不一，日期地址表达格式多样化等。

2、缺乏统一的布局标准，即没有一种对同一类体裁的信息统一的布局标准。以新闻为例，不同新闻网站之间新闻的各部分属性信息在网页的布局并不完全一致，比如新闻的发布日期可能出现在标题的上方，也可能出现在标题的下方甚至是正文的下方。

因此，目前从非结构化格式的网页中抽取信息的方法还有以下局限性：

抽取信息不完整，例如，对新闻信息的抽取目前只提出了新闻正文和标题的抽取方法，但新闻其它的相关信息在很多应用中也起着非常重要的作用，发布时间在新闻搜索引擎中是搜索结果排序的一个关键因素，但还没有包括发布时间的抽取方法；

抽取信息粒度过高，例如：对新闻信息的抽取目前的方法主要是在网页层次的抽取，但由于新闻网页通常包含大量无用的噪音信息，严重影响信息处理的质量；

抽取准确性不高且不稳定，例如：目前，新闻抽取的方法依赖于新闻网页的模板，但新闻网站之间的网页模板存在着较大的差异，因此，抽取的准确性一般在80％左右，而且不同网页之间准确性波动较。

发明内容

本发明实施例提供一种从网页中抽取信息的方法及装置，用以解决现有技术中不能从非结构化格式的网页中获取准确的信息问题。

本发明实施例提供一种从网页中抽取信息的方法，包括：

查找网页中的每种信息属性，获取每种信息属性对应的信息属性候选集；

根据保存的信息属性间的位置关系与布局关系概率的对应关系，查找至少两种信息属性间的至少一个最大布局关系概率，并确定查找到的最大布局关系概率对应的位置关系；

从所述至少两种信息属性对应的信息属性候选集中，抽取满足所述位置关系的信息属性组合。

本发明实施例提供一种从网页中抽取信息的装置，包括：

获取单元，用于查找网页中的每种信息属性，获取每种信息属性对应的信息属性候选集：

确定单元，用于根据保存的信息属性间的位置关系与布局关系概率的对应关系，查找至少两种信息属性间的至少一个最大布局关系概率，并确定查找到的最大布局关系概率对应的位置关系；

抽取单元，用于从所述至少两种信息属性分别对应的信息属性候选集中，抽取满足所述位置关系的信息属性组合。

本发明实施例提供的从网页中抽取信息的方法，首先查找网页中的每种信息属性，获取每种信息属性对应的信息属性候选集，然后根据保存的信息属性间的位置关系与布局关系概率的对应关系，查找至少两种信息属性间的至少一个最大布局关系概率，并确定查找到的最大布局关系概率对应的位置关系，并从所述至少两种信息属性对应的信息属性候选集中，抽取满足所述位置关系的信息属性组合，这样，根据信息属性间的位置关系，形成高相关性的聚类，从而可以从网页中快速、准确地抽取出所需的信息。

附图说明

图1为本发明实施例从网页中抽取信息的流程图；

图2为本发明第一实施例中获取新闻属性候选集的流程图；

图3为本发明第二实施例中从网页中抽取信息的流程图；

图4为本发明第二实施例中标题和作者的位置示意图；

图5为本发明第二实施例中标题、作者和评论链接的位置示意图；

图6为发明实施例从网页中抽取信息的装置结构图。

具体实施方式

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司，未经北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910090455.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种旋挖机用钢丝绳及其制备方法
下一篇：连续式太阳能集热板芯片真空磁控溅射镀膜生产线系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种从网页中抽取信息的方法及装置有效

专利文献下载