[发明专利]一种基于多头注意力机制的事件论元角色抽取方法有效
申请号: | 201910315948.9 | 申请日: | 2019-04-19 |
公开(公告)号: | CN110134757B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 汤景凡;戚铖杰;张旻;姜明;闻涛 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/30;G06F16/35 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多头 注意力 机制 事件 角色 抽取 方法 | ||
1.一种基于多头注意力机制的事件论元角色抽取方法,其特征在于包括如下步骤:
步骤(1)数据集文本预处理,输出预处理好的文本和对应的标签;
步骤(1)所述的预处理过程如下;
1-1.将数据集文本中的标注信息和文本内容分离;
1-2.将文本内容转换成词向量;
1-3.输出预处理好的文本和对应的标签;
步骤(2)训练融合多头监督注意力机制的双向GRU网络;
2-1.特征提取,将步骤(1)中预处理好的文本和对应的标签输入双向GRU网络提取特征,输出每个词编码;
2-2.训练多头监督注意力机制,将注意力机制输出的注意力向量与步骤2-1中的词编码做点乘运算输出最终融合注意力向量的词编码;
步骤(3)对文本进行语义依存分析,输出触发词与候选论元之间的语义依存路径;
步骤(4)将预处理好的文本输入步骤(2)中网络训练后输出每个词的编码,融合步骤(3)中的语义依存路径输出<触发词编码,候选论元编码,语义依存路径>论元分类结构;
步骤(5)将论元分类结构输入分类网络训练并进行分类;
所述的步骤1-1具体为:
将XML标注内容处理成每个单词对应的标注,具体操作为:原始XML标注文本通过字符偏移量标注了事件触发词的起始字符位置和偏移量;首先将事件文本通过分词工具进行分词,同时根据XML标注文本中的信息,将事件文本中的每一个词进行编码,即根据每个词是否是事件触发词分别进行1-38编码,预定义38种事件类型;根据标注文件中的论元角色信息为文中每个实体论元制定对应的论元角色编码;
步骤1-2具体为:
首先通过大量新闻类文本训练word2vec模型,使用训练好的word2vec模型,将步骤1-1中的文本内容转化为词向量,交给后续网络。
2.根据权利要求1所述的一种基于多头注意力机制的事件论元角色抽取方法,其特征在于步骤2-2具体实现如下:
所述双向GRU神经网络模型中,将输入数据随机取70%作为训练数据,15%作为验证数据,剩余15%作为测试数据;选取GRU作为递归神经网络提取文本中每个词的篇章信息,即全局特征;
利用双向GRU输出的隐藏层编码特征,输入注意力机制层,计算得出每个隐藏层向量的注意力向量;
第k个注意力头学习到的第j个词对于第i个词的注意力权重向量表示为:
其中,hi,hj是第i个词和第j个词在双向GRU中的输出,f(·)函数表示对hi,hj进行相关度计算,σ(·)函数为sigmoid激活函数,exp(·)为指数函数,j取值从0到n,n为句子长度;
将n个注意力头连接得到第j个词对第i个词的完整注意力向量αij:
将每个触发词与候选实体的注意力向量和候选论元词编码hk相乘累加后得到第i个候选实体的最终表示Ri为:
其中w为注意力机制范围为句子长度,hj表示第j个词双向GRU的输出,αij为第j个词对第i个词的注意力向量;
计算隐藏层向量和注意力向量的点乘结果得出最终每个词的向量,输出最终编码Ri。
3.根据权利要求2所述的一种基于多头注意力机制的事件论元角色抽取方法,其特征在于步骤(3)所述文本进行语义依存分析,具体过程如下:
将文本信息通过Stanford CoreNLP工具进行语义依存分析得到语义依存分析树;将树结构信息构造成图结构,利用深度优先搜索遍历图得到触发词到每个词的路径信息;将文本路径信息进行one-hot编码输出语义依存路径编码P。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910315948.9/1.html,转载请声明来源钻瓜专利网。