[发明专利]一种图卷积注意力机制下的条件概率联合事件抽取方法在审

专利信息
申请号: 202011580284.8 申请日: 2020-12-28
公开(公告)号: CN112765952A 公开(公告)日: 2021-05-07
发明(设计)人: 王健;王琰;林鸿飞;张益嘉 申请(专利权)人: 大连理工大学
主分类号: G06F40/211 分类号: G06F40/211;G06F40/284;G06F40/289;G06F40/30;G06F16/35;G06F40/216
代理公司: 大连星海专利事务所有限公司 21208 代理人: 王树本;徐雪莲
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 图卷 注意力 机制 条件 概率 联合 事件 抽取 方法
【权利要求书】:

1.一种图卷积注意力机制下的条件概率联合事件抽取方法,其特征在于包括以下步骤:

步骤1、对生物医学事件语料进行结构重构:使用的训练语料是来自Multi-LevelEvent Extraction(MLEE)公开的事件抽取数据集,该数据集是于2012年在期刊Bioinformatics上提出的,扩大了生物医学事件抽取在领域信息抽取方面的覆盖范围,以涵盖从分子到整个生物体的所有层次的生物组织,抽取细粒度事件;MLEE官方语料中包含三类文档:即原始摘要文本文件,实体标注文件,以及事件标注文件,其中事件标注文件中详细地标出了事件触发词信息和每个生物事件相关的参与元素信息,针对原始MLEE官方语料,重新调整标注信息,具体包括以下子步骤:

(a)使用斯坦福自然语言处理工具对MLEE官方语料中的原始摘要文本进行分句、分词并保留标点符号,以句子为单位,将每个句子处理后的结果保存到一个单词列表(wordList)中,即[“word1”,“word2”,...,“wordn”];

(b)对获取子步骤(a)中的一个单词列表wordList中的每一个单词进行词性标注,并将标注后的结果以词性标签列表(POSList)的形式记录下来,即[“POS1”,“POS2”,...,“POSn”],其中POSi为对应wordi的词性标签;对于wordList:[“Imaging”,“tumor”,“angiogenesis”,“.”],经过词性标注后,可以得到该wordList中每一个单词的对应词性标签,即POSList:[“NOUN”,“NOUN”,“NOUN”,“PUNCT”];

(c)对子步骤(a)中的一个单词列表wordList,使用斯坦福句法解析器进行相应的句法结构识别,并将解析后的结果以句法列表(parseList)的形式进行保存,即[‘parseType1/dep=0/gov=i’,...,’parseTypen/dep=n-1/gov=j’],其中parseTypek为wordk与wordi间的句法关系类型,dep=k为wordk的index,gov=i为wordk的父亲节点wordi的index,对于wordList:[“Imaging”,“tumor”,“angiogenesis”,“.”],经过斯坦福句法解析后,得到其句法结构,并将其转变成parseList形式:[“compound/dep=0/gov=1”,“compound/dep=1/gov=2”,“root/dep=2/gov=-1”,“punct/dep=3/gov=2”];

(d)对子步骤(a)中的一个单词列表wordList,根据MLEE官方语料中的实体标注文件,进行生物实体标签重构,对于每一个生物实体,按照字典的形式进行记录,对于实体rat,其实体类型为Organism,该实体在句子中的位置为9,10,则将该实体记录为如下形式:{“text”:“rat”,“start”:9,“end”:10,“entity_type”:“Organism”},最后,将句子中的所有生物实体记录到实体列表(entityList)中,即[“entity1”,“entity2”,…,“entitym”];

(e)对子步骤(a)中的一个单词列表wordList,根据MLEE官方语料中的事件标注文件,进行生物事件标签重构,对于每一个生物事件,以生物事件触发词,生物事件参与元素,以及生物事件角色三部分记录,结构如下:{“trigger”:{字典形式},“arguments”:[List形式],“event_type”:“字符串”},对于Death生物事件,其生物事件触发词为survival,该词在句中的位置是6,7;其生物事件参与元素为corneal allograft,扮演的生物事件角色为“Theme”,该短语在句中的位置是4,6,该生物事件记录为:

最后,将句子中的所有生物事件,按照事件列表(eventList)的形式记录下来,即[“event1”,“event2”,…,“eventh”];

步骤2、文本的动态语义空间构建与句法树表示构建,具体包括以下子步骤:

(a)动态语义空间的构建,使用谷歌提出的BERT预训练模型,先在PubMed数据库语料进行微调,然后再应用到MLEE官方语料中,获取动态词向量表示;

(b)句法树表示的构建,主要是基于步骤1子步骤(c)抽取的句法解析parseList,按照图邻接矩阵构建树状图结构,由于解析出的句法结构中的单词之间的依赖关系都是单向的,为了增加信息流动的有效性,故为每一条单向边增加一个逆向边,并且为每一个单词增加一个自循环边,由于斯坦福句法解析中的标准的依赖关系多达50种,再加上补充的逆向边与自循环边,会使得该句法树表示过于复杂,为了解决该问题,使用公式(1)简化句法树中单词节点的依赖关系,

式中,Re是对句子中单词间依赖关系的重新定义:正向关系用direct表示,逆向关系用reverse表示,以及自循环关系用loop表示,vi和vj分别为单词i和单词j的节点表示形式,(vi,vj)为单词i到单词j的边类型,ε为斯坦福解析中的标准依赖关系集合;

步骤3、序列分布式表示的构建,由于这步骤的结果要输入到基于序列表示的模型当中,即输入的每一个单词为序列的每一个时间点,所以构建的序列分布式表示是基于每个单词的,该序列分布式表示,包含三个部分:

(a)单词嵌入表示,是由步骤2子步骤(a)所得到的BERT动态词向量表示,记为其中wordi为第i个单词;

(b)词性标签嵌入表示,将步骤1子步骤(b)所得到的POSList通过查询一个随机初始化的词性标签嵌入向量表来生成第i个单词wordi的词性标签向量,记为

(c)实体标签嵌入表示,根据步骤1子步骤(d)的结果,使用BIO标签机制对句子中提到的实体进行标注,其中B表示begin,为一个实体的首个单词,I表示in,为一个实体的内部单词,O表示out,表示非实体,最后通过查找随机初始化的实体标签嵌入表将实体类型标签转换为真实的向量,记为

(d)拼接所有嵌入表示,将步骤3中的(a),(b)和(c)的嵌入表示结果,按照公式(2)和(3)的方式进行拼接,构建出最终的序列分布式表示,

X={x1,x2,…,xn} (3)

式中,表示拼接操作,xi为第i个单词对应的分布式表示,X为xi组成序列后的分布式表示;

步骤4、基于双向LSTM的上下文特征抽取,使用双向LSTM是为了获取长依赖的,有效的上下文信息,将步骤3所得到的序列分布式表示,按照公式(4)顺序输入到每个LSTM单元中,分别得到不同LSTM单元的隐层表示hi,然后将这些单元的隐层表示按照公式(5)进行组合拼接,形成最终的上下文信息表示,

式中,和分别表示第i个前向LSTM单元的隐层输出和第i个后向LSTM单元的隐层输出,和分别为前向LSTM单元和后向LSTM单元的所有更新操作,

式中,Hfor为n个前向LSTM单元隐层输出结果组成的矩阵形式,Hback为n个后向LSTM单元隐层输出结果组成的矩阵形式,表示拼接操作,C为Hfor和Hback矩阵拼接后的上下文表示;

步骤5、采用GCN-Attention方法对图的关键信息进行抽取,该步骤主要是利用了重要信息更容易在图的关键节点流动的特点,获取句子中任务相关的关键词信息,具体包括以下子步骤:

(a)将步骤2子步骤(b)得到的句法树表示作为邻接矩阵输入到GCN模型中,对于一个k层结构的GCN模型,其计算过程是:对于任意单词节点v,根据邻接矩阵,使用第j-1层的GCN卷积向量计算第j层的卷积向量具体计算过程通过公式(6)进行描述,

式中,j的取值范围是{1,2,...,k},Re(u,v)为单词节点u,v间的依赖关系,和分别是第j-1个GCN层的权重矩阵和偏置,N(v)是单词节点v的邻居集合,包括v本身,为边(u,v)的权重,是将gate机制应用在边上,从而表示边的重要性,具体计算过程通过公式(7)进行描述,

式中,和分别为gate的计算权重矩阵和偏置,当j=1时,按照公式(6)可知,为GCN的第一层输入,但是由于第一层GCN的前一层卷积向量不存在,故用步骤3子步骤(a)得到的单词嵌入表示来初始化当GCN经过k次堆叠后,就会得到一个句法信息矩阵其中m为单词节点v的向量维度,n为句法树中的单词节点数,即句子中的单词个数;

(b)将步骤5子步骤(a)所得到的句法信息矩阵G输入到Multi-head Attention机制中,充分学习单词节点间的相似性,并为每一个节点进行重要性评分,使得GCN模型更关注重要的单词节点特征,由于Multi-head Attention机制是由H个Self-Attention模块组成,故对于任意一个Self-Attention模块,先按照公式(8)和(9)计算每一个Self-Attention模块的得分矩阵headi,再按照公式(10)计算Multi-head Attention机制的输出表示矩阵M:

公式(8)和(9)中,Qi,Ki和Vi分别为第i个Self-Attention模块的Q,K,V矩阵,用于参与计算第i个Self-Attention模块的得分矩阵,分别是用于初始化第i个Self-Attention模块的Q,K,V矩阵的权重矩阵,且m为步骤5子步骤(a)中得到的单词节点v的向量维度,H为Self-Attention模块的个数,

公式(10)中,为拼接操作,将H个Self-Attention模块的得分矩阵拼接后,使用矩阵进行线性变换,得到最终的输出表示矩阵M;

步骤6、基于条件概率信息的联合事件抽取:将步骤4得到的上下文表示C和步骤5子步骤(b)得到的输出表示矩阵M进行拼接,得到前端融合信息T,即然后将T按照以下子步骤操作,完成生物事件的联合抽取:

(a)使用一层单向LSTM单元结构,将前端融合信息T进行解析,得到源信息O;

(b)将源信息O输入到触发词识别softmax分类器中,按照公式(11)得到句子中每一个单词的触发词类别标签,并返回每个单词的softmax条件概率向量,即条件概率信息,该条件概率信息将被用在事件抽取任务中,

式中,Softmaxtri()为生物事件触发词识别分类器,Oi为第i个单词的源信息,Wtri和btri分别是触发词识别的权重矩阵和偏置,为预测出的第i个单词的触发词标签,softi为计算出的第i个单词的softmax条件概率信息;

(c)将源信息O与步骤6子步骤(b)所得到的条件概率信息进行融合,根据触发词和候选事件元素的位置,分别抽取出触发词向量表示Tri和事件元素向量表示Canj,具体过程通过公式(12)进行描述,

式中,i0,im表示的是第i个触发词在句子中的位置是i0到im,同理,j0,jn表示的是第j个候选事件元素在句子中的位置是j0到jn,m和n分别是第i个触发词包含的单词个数和第j个候选事件元素包含的单词个数,softk为单词在k位置时的条件概率信息,Ok为单词在k位置时的源信息;

(d)将触发词向量表示Tri和事件元素向量表示Canj拼接后,输入到生物事件抽取softmax分类器中,直接抽取具体的生物事件元组,通过公式(13)进行描述,不再需要事件构造的后处理过程,

式中,Softmaxevent()为生物事件抽取分类器,Wevent和bevent分别为事件抽取的权重矩阵和偏置,表示抽取出的生物事件元组;

(e)使用带有偏置的自适应Dice Loss函数,来联合优化生物事件触发词识别结果以及生物事件抽取结果,通过公式(14)进行描述,

式中,N为语料中的句子个数,np,tp和ep分别表示第l个句子中的单词数量,已经识别出的触发词数量,以及检测出的事件元素数量;为模型预测出触发词标签概率值,为实际的触发词标签;为模型抽取出的生物事件标签概率值,为实际的生物事件标签,γ为公式的平滑项,β为超参数,用于调整loss函数,θ为整个模型的可训练参数;该方法大大削弱了数据集正负例不平衡带来的准确率与召回率差距大的问题,从而提升了F1值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011580284.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top