[发明专利]一种中文事件抽取方法有效
申请号: | 201710209305.7 | 申请日: | 2017-03-31 |
公开(公告)号: | CN107122416B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 曾颖;杨宏辉;冯岩松;贾爱霞;赵东岩 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/295;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 事件 抽取 方法 | ||
本发明公开了一种中文事件抽取方法。本方法为:1)对待抽取的中文文本进行实体识别,将识别出来的实体作为事件元素的候选词;对该中文文本逐字进行标注,然后根据标注结果,结合标注模式,识别该中文文本中的事件触发词以及该中文文本所描述的事件类型;2)将该中文文本、事件元素的候选词、事件触发词以及事件类型输入到分类模型中,判断每一所述候选词是否为真实的事件元素;3)根据上述得到的事件元素、事件触发词及事件类型,得到完整的事件结构,完成事件抽取。本发明解决了中文事件抽取中事件触发词和文本中的词语不完全匹配的问题,并提高了中文事件抽取的准确性。
技术领域
本发明主要涉及自然语言处理领域,特别涉及一种利用神经网络和条件随机场进行中文事件抽取的方法,属于信息抽取技术领域。
背景技术
随着互联网的普及和发展,网络中的信息规模呈爆炸式地增长,如何从海量自然语言文档中及时准确地找到需要的信息变得日益迫切。信息抽取技术(InformationExtraction,IE)从松散、无结构的普通文本中抽取指定类型的实体、关系、事件等事实信息,并输出结构化的数据。其中,事件抽取(Event Extraction)是信息抽取研究中最具挑战性的任务之一,其主要研究如何从非结构化自然语言文本中抽取出事件的基本信息,例如事件的类型,事件的参与者,发生时间和地点等,并以结构化的形式呈现出来。
事件抽取技术具有广阔的应用场景和重要的现实意义。例如,根据用户感兴趣的话题推送相关事件的周边报道可以提高个性化新闻系统的表现。除了互联网领域,事件抽取还可以辅助其他领域研究。在医疗领域,利用事件抽取器可以从语料库中提取类似蛋白质分子行为的生物学事件;在金融领域,利用事件抽取技术实时监测突发经济新闻,如公司的兼并和收购,股票交易,分红等,帮助决策者迅速应对市场变化。
一些信息抽取领域的国际评测会议,如信息理解研讨会(Message Understandingfor Comprehension,MUC)、自动内容抽取评测(Automatic ContentExtraction,ACE)、文本分析会议(TextAhalysis Conference,TAC)等,针对事件抽取提出了一系列的理论,并推出了一些实用的系统框架。其中,自动内容抽取评测会议是事件抽取领域最有影响的评测会议,目前大多数的研究都是围绕该会议提出的事件抽取框架展开的。ACE 2005会议定义了8种事件类别及33种子类别,35种角色。ACE还为每种事件类别制定了唯一的模板,主要包括事件的参与者和能反应事件特征的属性,部分事件类型及其模板如表1所示。
表1 ACE 2005任务定义的事件模板
在ACE事件抽取框架中,一个事件由一个事件触发词(trigger)、一种事件类型和若干事件元素组成。其中,事件触发词是指文本中最能体现事件发生的词语,事件元素包含了事件的属性和参与者。根据上述定义,事件抽取任务可以分成两个子任务,分别是:事件触发词及类型的识别,和事件元素的识别。例如,对文本“Intel在中国成立了研究中心”进行事件抽取,第一步应该将“成立”识别成触发词,其触发了一个“成立机构”类型的事件;第二步应该将“Intel”、“中国”和“研究中心”识别成事件元素,其角色分别为“设立方”、“地点”和“被成立机构”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710209305.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:地名地址库数据融合集成的系统
- 下一篇:一种数据库审计方法及装置