[发明专利]信息抽取的方法及系统无效
申请号: | 201010127980.3 | 申请日: | 2010-03-19 |
公开(公告)号: | CN102193951A | 公开(公告)日: | 2011-09-21 |
发明(设计)人: | 周雅倩;何一鸣;姜孟晋;谭卫国 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518129 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 抽取 方法 系统 | ||
技术领域
本发明涉及信息技术领域,尤其涉及一种信息抽取的方法及系统。
背景技术
信息抽取可以从网页中找到所有与特定场所相关的事件信息,即把人们感兴趣的事件信息以元组的形式呈现出来,如在什么时间,什么人在什么地方做了什么事。由于现实生活中的事件以不同的格式分布在互联网上不同的网站中,通过事件抽取可以方便对特定场所的事件进行归类和分析。
现有技术中采用自动本地事件抽取技术,使用概率抽取工具从电子文档,如网页中抽取事件信息。信息抽取的具体过程为训练阶段和抽取阶段。在训练阶段首先接收人工标注过的训练网页,采用基于概率方法训练事件抽取模型,然后输出事件抽取模型,即:词表、基于词汇的转移概率表和状态转移概率表。在事件抽取阶段,首先接收包含事件的网页,对接收的事件网页进行词汇切分得到词汇流,再根据事件抽取模型从词汇流中抽取事件元素信息,最后输出事件元素流。
在实现上述事件抽取的过程中,发明人发现现有技术中所使用的训练网页需要耗费大量的人工来标注训练语料。
发明内容
本发明的实施例提供一种信息抽取的方法及系统,在实现网页事件信息的抽取时,降低了人工标注训练语料的工作量。
为达到上述目的,本发明的实施例采用如下技术方案:
一种信息抽取的方法,包括:
从种子事件信息集合中提取事件名关键词集合;
利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合;
利用所述更新后的种子事件信息集合和所述事件名关键词集合从所述事件网页中学习出事件抽取模式;
利用所述事件抽取模式从所述事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。
一种信息抽取系统,包括:
提取单元,用于从种子事件信息集合中提取事件名关键词集合;
第一更新单元,用于利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合;
学习单元,用于利用所述更新后的种子事件信息集合和所述事件名关键词集合从所述事件网页中学习出事件抽取模式;
第二更新单元,用于利用所述事件抽取模式从所述事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。
由上述技术方案所描述的本发明实施例中,首先通过从种子事件信息集合中提取事件名关键词集合。然后利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。所述更新后的种子事件名关键词集合会被再次用于提取事件名关键词集合。然后,利用所述更新后的种子事件信息集合和所述事件名关键词集合从所述事件网页中学习出事件抽取模式,并利用所述事件抽取模式从所述事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合,该更新后的种子事件信息集合会被再次用于从所述事件网页中学习出事件抽取模式。最后得出的事件名关键词集合和事件抽取模式组成了事件抽取模型。与现有技术相比,本技术方案中只需少量的预设种子事件信息作为训练数据,从该种子事件信息集合中提取事件名关键词集合,通过将利用上述事件名关键词集合从事件网页中抽取出的事件信息来更新所述种子事件信息集合,进而获取事件抽取模式,整个过程不需要大量的人工去标注训练语料。从而解决了现有技术中需要使用大量人工标注的事件描述来训练事件抽取模型的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例1中的信息抽取模型学习的流程图;
图2为实施例1中的信息抽取的系统结构图;
图3为实施例2中的信息抽取模型学习的流程图;
图4为实施例2中的信息抽取的系统结构图;
图5为实施例2中的信息抽取的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010127980.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置