[发明专利]基于K-max池化的卷积网络事件识别方法在审
申请号: | 202011173078.5 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112307743A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 谷雨;张震;徐英 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 max 卷积 网络 事件 识别 方法 | ||
本发明设计了一种基于K‑max池化的卷积网络事件识别方法。传统的卷积神经网络可以最大池化抽取句中的事件信息,但是由于句中可能存在多个事件,传统的最大池化有可能丢失有价值的事件信息而导致识别任务精度下降。针对这个问题,提出了利用K‑max池化的替代传统的最大池化的卷积网络,最大可能保证事件信息的完整性。首先,利用Glove进行词向量表示,然后进行特征提取,包含词汇特征、实体特征和句子特征的提取,最后对句中的单词进行分类预测以识别其对应的事件类型。与传统的CNN网络模型提取的特征相比,拥有K‑max池化的卷积网络能充分捕捉事件的特征,最大利用事件特征,从而实现事件类型的精准识别效果。
技术领域
本发明属于自然语言处理信息抽取中的事件抽取领域,涉及一种基于K-max池化的卷积网络事件类型识别方法。
背景技术
现代社会,互联网迅速发展,大量的信息出现在人们面前。随着信息的过量增长,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,信息抽取正是在这样的背景下发展起来的、。事件抽取是信息抽取领域一个重要的研究方向。事件抽取就是从自由文本中检测出事件的发生并提取出事件的要素。
大多数研究将事件抽取分为两个子任务,事件类型识别和事件要素识别。事件类型识别是指检测事件的触发词并识别出其所属事件类型,事件要素识别则是根据特定的事件类型检测其对应的事件组成要素以及要素的对应角色。
传统的事件类型识别大多是利用手工构造特征的方法表示每个候选触发词,然后借助统计模型进行分类。近年来兴起的神经网络方法,也在事件抽取领域取得了不错的效果。这些基于神经网络的方法,包括卷积神经网络(convolutional neural network,CNN)和递归神经网络(recurrent neural network,RNN)等,从自由文本中自动提取特征,避免了人工构造特征的过程。
本发明从事件类型识别任务出发,提出一种基于K-max池化的卷积神经网络方法(KCNN)。对比于传统的CNN提取模型,KCNN模型更能充分提取句子的事件特征。传统CNN提取特征,选择池化层提取最大值,但是有可能会丢弃一些很重要的信息。本发明在传统的CNN模型基础上,选用候选触发词为分割点,分别对分割后的部分进行池化操作,选用K-max池化提取前k个最大值,是为了最大可能地提取句中有价值的事件信息。与传统的CNN模型相比,本发明方法表现出更好的实验效果。
发明内容
本发明针对事件抽取领域CNN网络提取特征不足的问题,提出一种基于K-max池化的卷积网络特征提取方法,最大可能保证提取的事件信息的完整性,从而提高事件抽取的效果。
本发明方法具体是:
步骤(1)、获取事件的文本数据,对其进行分句分词以及命名实体识别处理,对每个句中单词采用无监督的方式学习得到单词的向量表示,即词向量;同时将句中每个单词的词向量作为候选触发词,并将候选触发词的前后单词的词向量作为候选触发词的上下文信息,候选触发词在句中的位置作为候选触发词的对应位置信息;
所述的分句分词以及命名实体识别处理为常规操作,故不详解。
所述的无监督的方式采用GloVe模型,模型的损失函数如下式(1)所示:
其中vi和vj是单词i和单词j的词向量,bi和bj是常数项,f是特定的权重函数,N是语料词汇的大小,Xi,j是单词的共现矩阵,表示单词i和单词j出现在同一窗口的次数,T表示转置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011173078.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:机械法分离鱼类精原干细胞的方法
- 下一篇:一种纸板油墨自动化印刷设备