[发明专利]一种事件触发词识别方法及系统在审

申请号：	201510236590.2	申请日：	2015-05-11
公开（公告）号：	CN104778163A	公开（公告）日：	2015-07-15
发明（设计）人：	陈敬;李寿山;周国栋	申请（专利权）人：	苏州大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	罗满
地址：	215123 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种事件触发识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信息处理领域，特别是涉及一种事件触发词识别方法及系统。

背景技术

随着互联网的高速发展和信息高速公路的兴起，网络信息数据不断增加，从而使得大量的信息以电子文本的形式呈现在人们面前。因此，如何从这些大量的信息中迅速、准确地提取出人们所需求的重要信息就越发重要。

信息抽取是从文本中自动获取信息的一种主要手段。信息抽取是将无结构的文本信息，按照人们的需求识别和抽取出来，转化为结构化或半结构化的信息，并采用数据库的形式存储，以便人们查询和进一步的分析、利用。事件由事件触发词和描述事件结构的元素构成，事件抽取(Event Extraction)是信息抽取的一个重要研究方向。ACE2005将事件抽取的任务定义为事件的检测与识别(Event detection and recognition)，即识别特定类型的事件，并进行相关信息的确定和抽取。事件触发词是直接引发事件发生的词，对事件触发词的识别是进行事件抽取其他子任务的基础。例如：“高中同学前一个月结婚了”的触发词为“结婚”，所触发的事件类别为“Marry”，而“美国总统布什将于2月访问德国并与施罗德会谈”这一事件的触发词则为“会谈”,触发的事件类别为“Meet”。

目前，事件触发词的识别方法大致可以分为两种：第一种是基于规则的方法，它主要是通过收集训练集中的触发词构成触发词表，然后通过触发词表及其他一些标注信息来识别出测试集中的触发词。该方法可以识别出较多的触发词，但是规则的定义需要耗费大量的人力，而且规则如果定义的不够好，则可能会过滤掉一些本身可以充当触发词的单词而导致识别效果较低。第二种方法是基于机器学习的方法，即使用统计的方法进行研究。这种方法把事件触发词识别看成分类问题，选择合适的特征并使用合适的分类器来完成。该方法虽然更加智能，但是却存在不能充分的利用到上下文信息，特征无法全局归一化等缺憾。

因此，如何使事件触发词更加全局化且有效的提高事件触发词的识别性能，是本领域技术人员需要解决的技术问题。

发明内容

本发明的目的是提供一种事件触发词识别方法，该方法能够使事件触发词更加全局化且有效的提高事件触发词的识别性能；本发明的另一目的是提供一种事件触发词识别系统。

为解决上述技术问题，本发明提供一种事件触发词识别方法，包括：

利用所述最大熵识别模型对所述测试样本中的事件触发词进行识别，得到识别结果；

其中，所述最大熵识别模型的获取包括：获取原始语料样本的词特征，词性特征，实体信息特征和依存关系特征；获取所述词特征，词性特征，实体信息特征和依存关系特征的特征向量，根据所述特征向量得到可用样本，将所述可用样本按照预定规则分为训练样本和测试样本；利用所述训练样本训练最大熵模型，得到最大熵识别模型。

其中，所述的事件触发词识别方法还包括：

更新所述最大熵识别模型。

其中，所述获取原始语料样本的词特征，词性特征，实体信息特征和依存关系特征包括：

从原始语料样本中抽取所述原始语料样本的词特征和实体信息特征；

利用Stanford工具获取所述原始语料样本的词性特征，依存关系特征。

其中，所述将所述可用样本按照预定规则分为训练样本和测试样本包括：