[发明专利]一种从网页中抽取信息的方法及装置有效
申请号: | 200910090455.6 | 申请日: | 2009-08-12 |
公开(公告)号: | CN101996190A | 公开(公告)日: | 2011-03-30 |
发明(设计)人: | 刘伟;万小军;杨建武;肖建国 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 抽取 信息 方法 装置 | ||
技术领域
本发明涉及信息检索和数据集成技术领域,特别涉及一种从网页中抽取信息的方法及装置。
背景技术
Web自上世纪90年代初诞生以来便以惊人的速度发展,到目前Web已经成为了世界上最大的信息仓库,覆盖了现实世界的各个领域,成为了人类工作生活获取信息主要途径。Web信息的发布主要是以网页的形式实现,据最新的估计,Web中网页的数量已经超过了550个billion,也就是5500亿。
可见,网页虽然是信息非常重要的数据来源,但由于Web中网站数量众多,而且这些信息所在的网页通常会包还大量无用的噪音信息,严重影响对信息处理的效率和检索的质量。因此,手工方式的访问已经无法满足用户信息获取的需要,为了让用户更有效地访问和利用Web中海量的信息,目前,出现了各种Web信息搜索和集成相关的应用,例如:垂直搜索引擎、舆情分析等。
上述这些应用的一个必要步骤就是将所需的信息从网页中准确地抽取出来。但由于绝大部分网页都是以HTML语言编写,文档结构化程度很低,而且缺乏语义的连续性,网页的非结构化主要表现为:
1、信息的表现格式不一致,即表示相同类型语义的信息格式、表现形式多样性化,没有统一的标准,例如:在网页中使用的字体以及在页面中位置繁杂不一,日期地址表达格式多样化等。
2、缺乏统一的布局标准,即没有一种对同一类体裁的信息统一的布局标准。以新闻为例,不同新闻网站之间新闻的各部分属性信息在网页的布局并不完全一致,比如新闻的发布日期可能出现在标题的上方,也可能出现在标题的下方甚至是正文的下方。
因此,目前从非结构化格式的网页中抽取信息的方法还有以下局限性:
抽取信息不完整,例如,对新闻信息的抽取目前只提出了新闻正文和标题的抽取方法,但新闻其它的相关信息在很多应用中也起着非常重要的作用,发布时间在新闻搜索引擎中是搜索结果排序的一个关键因素,但还没有包括发布时间的抽取方法;
抽取信息粒度过高,例如:对新闻信息的抽取目前的方法主要是在网页层次的抽取,但由于新闻网页通常包含大量无用的噪音信息,严重影响信息处理的质量;
抽取准确性不高且不稳定,例如:目前,新闻抽取的方法依赖于新闻网页的模板,但新闻网站之间的网页模板存在着较大的差异,因此,抽取的准确性一般在80%左右,而且不同网页之间准确性波动较。
发明内容
本发明实施例提供一种从网页中抽取信息的方法及装置,用以解决现有技术中不能从非结构化格式的网页中获取准确的信息问题。
本发明实施例提供一种从网页中抽取信息的方法,包括:
查找网页中的每种信息属性,获取每种信息属性对应的信息属性候选集;
根据保存的信息属性间的位置关系与布局关系概率的对应关系,查找至少两种信息属性间的至少一个最大布局关系概率,并确定查找到的最大布局关系概率对应的位置关系;
从所述至少两种信息属性对应的信息属性候选集中,抽取满足所述位置关系的信息属性组合。
本发明实施例提供一种从网页中抽取信息的装置,包括:
获取单元,用于查找网页中的每种信息属性,获取每种信息属性对应的信息属性候选集:
确定单元,用于根据保存的信息属性间的位置关系与布局关系概率的对应关系,查找至少两种信息属性间的至少一个最大布局关系概率,并确定查找到的最大布局关系概率对应的位置关系;
抽取单元,用于从所述至少两种信息属性分别对应的信息属性候选集中,抽取满足所述位置关系的信息属性组合。
本发明实施例提供的从网页中抽取信息的方法,首先查找网页中的每种信息属性,获取每种信息属性对应的信息属性候选集,然后根据保存的信息属性间的位置关系与布局关系概率的对应关系,查找至少两种信息属性间的至少一个最大布局关系概率,并确定查找到的最大布局关系概率对应的位置关系,并从所述至少两种信息属性对应的信息属性候选集中,抽取满足所述位置关系的信息属性组合,这样,根据信息属性间的位置关系,形成高相关性的聚类,从而可以从网页中快速、准确地抽取出所需的信息。
附图说明
图1为本发明实施例从网页中抽取信息的流程图;
图2为本发明第一实施例中获取新闻属性候选集的流程图;
图3为本发明第二实施例中从网页中抽取信息的流程图;
图4为本发明第二实施例中标题和作者的位置示意图;
图5为本发明第二实施例中标题、作者和评论链接的位置示意图;
图6为发明实施例从网页中抽取信息的装置结构图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司,未经北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910090455.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置