[发明专利]基于对抗模仿学习的事件识别及分类方法、系统、装置有效
申请号: | 201910440322.0 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110209816B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 陈玉博;刘康;赵军;刘健 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/126 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对抗 模仿 学习 事件 识别 分类 方法 系统 装置 | ||
本发明属于自然语言处理领域,具体涉及了一种基于对抗模仿学习的事件识别及分类方法、系统、装置,旨在解决传统事件识别及分类方法语言处理工具存在错误累计导致事件识别准确率低的问题。本发明方法包括:获取不含标准标注信息的句子并输入;将每一个词特征化后的词向量集构成词向量特征矩阵;采用向量编码器对词向量特征矩阵进行编码,并采用注意力机制为每一个词分配权重,获得知识向量;采用事件类型分类器依据知识向量计算输入信息属于各事件类别的概率;概率值最高的事件类别作为输入信息的事件类别。本发明不依赖自然语言处理工具对信息进行抽取,避免错误积累,提高了事件识别的准确率。
技术领域
本发明属于自然语言处理领域,具体涉及了一种基于对抗模仿学习的事件识别及分类方法、系统、装置。
背景技术
互联网的蓬勃发展带来了信息的爆炸式增长,人们每天都会接触各个领域的产生的信息,例如体育、娱乐等领域的新闻信息,科研领域的文献信息等等。如何从这些非结构,无序、杂乱的信息中发现感兴趣的事件是现今亟需解决的问题。事件识别(EventIdentification)技术正是解决这一问题的途径和手段。事件识别是信息抽取(Information Extraction)的一个独立子任务,主要研究如何从含有事件信息的非结构化文本中识别出用户感兴趣的事件并且对其类型进行划分。
在事件识别中,一个事件定义为由一个触发词(trigger)、一种特定的事件类型(event type)和若干事件的事件元素(argument)及其角色(roles)组成;其中事件的触发词是文本描述中最能指示事件发生的词。完整的事件抽取任务需要从描述事件的句子中抽取事件的上述各个成分,并以结构化的形式展现出来。ACE(Automatic ContextExtraction)评测比赛推动了这个领域的发展。该评测预定义了8个大类和33个小类的事件类型,每个类型的事件都有若干标注的实例。
目前的主流技术是将事件识别转化为词分类的问题,然后利用句法分析器等工具抽取句子中的可用信息构建特征向量,最后利用基于特征的分类器进行分类。但是,传统的方法采用自然语言处理工具对可用信息进行抽取,这些处理工具中往往都存在一些错误,错误累积现象通常会影响最终事件识别的效果。
发明内容
为了解决现有技术中的上述问题,即传统事件识别及分类方法语言处理工具存在错误累计导致事件识别准确率低的问题,本发明提供了一种基于对抗模仿学习的事件识别及分类方法,该方法包括:
步骤S10,获取不含标准标注信息的句子作为输入信息;
步骤S20,对所述输入信息中每一个词进行特征化操作,获得对应的词向量集构成词向量特征矩阵;
步骤S30,采用向量编码器对所述词向量特征矩阵进行编码,并使用注意力机制为所述输入信息的每一个词分配权重,获得输入信息对应的知识向量;
步骤S40,基于所述输入信息对应的知识向量,通过事件类型分类器计算所述输入信息属于各事件类别的概率;
步骤S50,以概率值最高的事件类别作为所述输入信息的事件类别。
在一些优选的实施例中,所述向量编码器,其训练方法为:
步骤B10,获取含有标签向量的文本集作为第一训练样本集;将所述第一训练样本集的标签信息去除,作为第二训练样本集;
步骤B20,采用权利要求1步骤S20方法获取所述第一训练样本集对应的第一词向量特征矩阵集、第二训练样本集对应的第二词向量特征矩阵集;
步骤B30,将所述第一词向量特征矩阵集与标签向量集合并为第一特征表示集,基于所述第一特征表示集、第二词向量特征矩阵集,采用权利要求1步骤S30方法获取对应的标准知识向量集、无标签信息标准知识向量集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910440322.0/2.html,转载请声明来源钻瓜专利网。