[发明专利]一种基于候选事件元素注意力机制的生物事件抽取方法有效
申请号: | 201810572450.6 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108897989B | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 王健;王安然;林鸿飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本;徐雪莲 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种生物事件抽取方法,一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:(1)训练语料预处理,(2)使用PubMed数据库语料进行词向量训练,(3)构建序列的分布式表示方式,(4)构造基于BiLSTM‑Attention的特征表示方式,(5)使用CRF学习、获取当前文档序列的最优序列标注结果,(6)生物事件抽取。本发明方法具有以下优点:一是采用序列标注的方式进行针对触发词的事件元素识别,可以对一个触发词识别多个事件元素,二是构建了针对候选事件元素的Attention层,相比于传统的序列标注方法可以增加对候选事件元素的注意力权重,三是简化了生成事件的步骤。 | ||
搜索关键词: | 一种 基于 候选 事件 元素 注意力 机制 生物 抽取 方法 | ||
【主权项】:
1.一种基于候选事件元素注意力机制的生物事件抽取方法,其特征在于包括以下步骤:步骤1、训练语料预处理,将生物事件抽取任务构造成序列标注任务形式:使用的训练语料选自MLEE即Multi‑Level Event Extraction,MLEE语料从与癌症相关的生物文献中抽取细粒度事件,其中包含生物组织的命名实体标注和事件标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,处理方法为:遍历标注的触发词,将每一个触发词所在的句子作为一个序列,序列中每个节点包含以下信息:单词、单词对应的实体类别、触发词类别,最后将这个触发词对应事件的元素类别作为待预测的标签,序列构造具体包括以下子步骤:(a)对当前待生成序列的触发词(简称:当前触发词)所在句子进行分词,获得的单词以及符号逐行保存,作为序列信息的第一列;(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列,BIO标签给出三种类别的标签,即Begin,简称为B,In,简称为I,Out,简称为O,标签为B的单词为短语的起始,I为短语的中间,O为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用B标签;对于不同事件类别的标签,BIO机制通过拼接类别的BIO标签进行标注,例如:对于Regulation事件的一个触发词play a role,play对应标签B‑Regulation,a和role对应标签I‑Regulation,而其他非当前触发词的单词的标签则为O;(c)将该句子中每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为序列信息的第三列和第四列,方法同步骤1子步骤(b),这里的触发词为句子中出现的所有触发词,包括但不限于当前触发词;(d)将该句子中,当前触发词所触发事件的事件元素,根据其类型生成BIO标签方式,方法同步骤1子步骤(b),作为该序列的第五列,也是该序列对应的真实标签,对于事件作为当前事件的事件元素的情况,使用事件的触发词来代表事件;步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;步骤3、构建序列的分布式表示方式,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示方式是基于每个单词的,主要包括两个部分:一个是单词的分布式表示,另一个是事件特征的分布式表示,具体包括以下子步骤:(a)单词的分布式由两部分拼接而成,分别是基于外部语料预训练的词向量和基于字符序列构造的词向量,基于外部语料预训练的词向量来自权利要求1步骤2,基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM,将最后一个输入的隐层输出作为单词的分布式表示,首先将语料中出现的所有字符进行随机向量映射,然后将当前触发词的字符序列向量输入到BiLSTM中进行表示学习,再将前向和后向序列的最后一个单元的隐层输出拼接,作为这个单词基于字符序列构建的词向量,通过公式(1)进行描述,式中,Lchar_LSTM_for(wi)和Lchar_LSTM_rev(wi)分别表示单词wi的字符序列向量通过前向和后向LSTM层的隐层输出,表示矩阵拼接操作,表示单词wi基于字符序列构建的词向量;(b)事件特征的分布式表示是为了针对事件抽取任务,是对单词的分布式表示的一种额外信息补充,事件特征包括当前触发词类别、单词的实体类别、触发词类别,即步骤1子步骤(b)、(c)描述的第二、三、四列,通过将这些类别信息做随机初始化向量的映射,在模型训练的过程中更新这些参数,单词wi对应的事件特征分布式表示为通过公式(2)进行描述,式中,表示单词wi对应的当前触发词类别的向量、表示单词wi对应实体类别的向量、定示单词wi对应触发词类别的向量;(c)最后将以上的分布式表示拼接,获得单词wi的分布式表示通过公式(3)进行描述,式中,表示步骤2获取的FastText词向量;步骤4、构造基于BiLSTM‑Attention的特征表示方式,将事件抽取任务抽象成一个序列标注问题,其目标是在已知触发词的前提下,找到其所在文本序列最优的事件元素类别BIO标签序列,具体包括以下子步骤:(a)将经过步骤3生成的分布式表示序列作为双向LSTM即BiLSTM层输入,按照正序和逆序两个顺序,再将每个单词的分布式表示输入到两个LSTM网络中,然后将两个网络的隐层输出拼接作为BiLSTM层的输出,对于每个单词wi对应的BiLSTM层的输出为hi,通过公式(4)进行描述,式中,为正向LSTM层的隐层输出,为逆向LSTM层的隐层输出;(b)通过Attention层学习到当前输入对应全局序列信息的权重值,然后将权重值与BiLSTM的隐层输出进行加权平均,获得当前输入单词的基于注意力的候选事件元素信息,首先,获得对于当前单词wi关于文档词序列的注意力权重,将当前单词wi与文档中的每一个单词wj计算一个得分,并用score(wi,wj)表示,然后通过softmax计算归一化,通过公式(5)进行描述,式中,n表示该文本单词序列的长度,q为1到n的整数,ai,j表示当前单词wi对于该文档单词序列中单词wj的权重,即注意力权重ai,j,score函数通过公式(5)、(6)进行描述,式中,为与的欧几里得距离即Euclidean Metric,是Attention层的输入,ui为计算score(wi,wj)的随机初始化的参数,随模型训练进行更新,然后,将注意力权重ai,j与单词序列经过BiLSTM的隐层输出进行加权,通过公式(7)得到获取基于文档注意力的信息gi,式中,j为1到n的整数,hj为步骤4子步骤(b)中对单词wj获得的BiLSTM层的输出;(c)将Attention层输出的结果与BiLSTM的隐层输出结果进行拼接,作为对于单词wi最后的特征表示zi,通过公式(8)进行描述,步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果,对于单词序列经过BiLSTM与Attention层输出的特征向量序列Z=(z1,z2,…,zn),m为zi向量的长度,同时,定义pi,l代表了在序列中第i个位置对应标签为l的得分,通过公式(9)描述,pi,l=[zi·V]l (9)式中,为为参数矩阵,其中k为类别标签个数,[zi·V]l为[zi·V]在位置l的取值,即标签为l的得分;定义一个转移矩阵其中每个元素表示一个标签转移到另一个标签的得分,对于输入Z和其对应标签序列y=(y1,y2,…,yn)的得分通过公式(10)进行描述,式中,为序列中i位置对应标签yi转移到标签yi+1的得分,为i位置对应标签为yi的得分,每当输入一个文档单词序列,其对应的标签序列为y,通过步骤3和步骤4获取特征向量表示序列Z,CRF标签最大化目标函数L,通过公式(11)进行描述,式中,Y表示所有可能的标签序列集合,T和θ为待训练的参数,T是标签转移矩阵参数,θ是获取pi,l所需要的参数,包括V和步骤3、4的所有参数集合;步骤6、生物事件抽取,利用步骤3‑5所训练的参数生成的事件元素识别模型,将已标注触发词但未标注事件元素的数据按照步骤1子步骤(a)、(b)、(c)处理后,作为模型的输入,在步骤5使用维特比算法来找到输入序列对应的最优预测标签序列,获取某一触发词对应的事件元素信息,最后将触发词与其对应事件元素结合,完成了生物事件的抽取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810572450.6/,转载请声明来源钻瓜专利网。