[发明专利]一种基于知识表示的生物医学实体链接方法有效
申请号: | 201910297065.X | 申请日: | 2019-04-15 |
公开(公告)号: | CN110110324B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 周惠巍;宁时贤;刘壮;郎成堃;刘喆;雷弼尊 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F16/36;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉;刘秋彤 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 表示 生物医学 实体 链接 方法 | ||
1.一种基于知识表示的生物医学实体链接方法,其特征在于,包括以下步骤:
步骤一、文本预处理
对于生物医学文本,首先提取出文本中所有待链接的生物医学实体提及,然后通过知识库查找实体提及对应的所有候选实体标识符ID;仅保留排序前五的查找结果作为实体提及的候选ID集合;
步骤二、基于生物医学知识库的实体表示学习
(2.1)从知识库中抽取同一实体多种变体和不同实体同名的实体结构信息;
(2.2)将知识库中实体结构信息作为向量空间上的约束,采用自动编码机对实体提及表示和变体表示进行重构,从而学习实体ID表示;
自动编码机是基于两个约束:(i)实体ID表示是其各个变体表示的和,(ii)实体提及表示是其同名变体表示的和;定义实体提及表示为变体表示为实体ID表示为v(i,j)是第i个实体提及m(i)和第j个实体IDs(j)共有的变体;则自动编码机的两个约束可用如下公式表示:
s(j)=∑iv(i,j)
m(i)=∑jv(i,j)
自动编码机由两部分组成,即编码器和解码器;编码时,编码器按照实体提及→变体→实体ID的顺序进行;其中,实体提及表示m(i)初始化为其组成单词的预训练词表示的平均值,变体表示v(i,j)通过引入一个对角矩阵对实体提及表示m(i)进行分解获得;然后,由对应变体表示的加和获得实体ID表示s(j);编码过程的公式如下:
s(j)=∑iv(i,j)=∑iE(i,j)m(i)
E(i,j)是一个对角矩阵,满足条件∑jE(i,j)=In,其中In是一个单位矩阵;
解码时,解码器按照实体ID→变体→实体提及的顺序进行;通过引入另一个对角矩阵将编码获得的实体ID表示s(j)分解为各个变体表示然后再由同名变体表示的加和重构实体提及表示解码过程的公式如下:
对角矩阵同样满足条件∑iD(j,i)=In,其中In是一个单位矩阵;
(2.3)定义一个重构误差函数来训练自动编码机的参数,其公式为:
该重构误差函数由两部分组成,一个是要求解码出的实体提及表示m(i)与输入的提及表示m(i)对齐,即∑j(D(j,i)∑iE(i,j)m(i))≈m(i);另一个是要求解码器得到的变体表示与编码器得到的变体表示v(i,j)对齐,即E(i,j)m(i)≈D(j,i)s(j);
通过最小化该重构误差函数,使得实体结构信息被嵌入到实体ID中,得到学习后的实体ID表示;α,β为权重系数,且满足α+β=1,用于控制两部分对齐的平衡;
步骤三、基于知识表示的生物医学实体链接
利用步骤二学习获得的实体ID表示,对步骤一抽取出的生物医学实体提及进行消歧,获得在特定上下文中实体提及对应的唯一ID;构建基于知识表示的实体消歧模型,该模型通过注意力机制和门机制融合文本语义表示和实体ID表示,从而预测实体提及被链接到当前候选实体ID的概率;具体过程如下:
(3.1)通过嵌入层,将待链接实体提及的候选实体ID,和它的左侧上下文、右侧上下文分别映射到向量空间,获得候选ID表示s和左、右侧上下文词向量序列和
(3.2)CL和CR分别输入给一个门递归单元神经网络GRU,获得在第t个时间步输出的隐层表示和如下:
对于一段词序列的语义信息,其中每个词相对于候选ID的重要性是不同的;所以提出基于知识表示的注意力机制,利用候选ID表示计算每个时间步隐层表示的归一化权重αt,计算公式如下:
et=tanh(Wa·ht+Va·s+ba)
其中,ht是或和均是模型的参数,在训练过程中进行调优;tanh为双曲正切激活函数;通过一个前馈神经网络建模候选ID表示s与上下文各个时间步的隐层表示ht,获得二者的关联得分et;之后,利用softmax函数对得分et进行归一化得到隐层表示的权重αt;
接下来,对GRU隐层表示的整个序列作加权求和操作,使结构信息编码的候选ID表示与上下文语义表示融合,公式如下:
o=∑tαtht
其中,o表示左上下文表示oL或右上下文表示oR;
(3.3)注意力机制分别应用于左、右侧隐层表示从而获得的左、右上下文表示,并通过一个门机制来进行动态控制,让实体提及的最终上下文表示z获得充分的学习,计算公式如下:
z=g⊙oL+(1-g)⊙oR
g=σ(Wg·oL+Vg·oR+bg)
其中,Wg,Vg,bg是待训练的参数;⊙表示逐元素相乘;g是权重,通过将左右上下文oL和oR输入一层全连接层并通过sigmoid激活函数σ获得的;
(3.4)将实体提及的上下文表示z和候选ID表示s拼接输入给分类器;分类器由具有ReLU激活的两层全连接神经网络FC和一个sigmoid输出层组成,公式如下:
pr1=relu(W1·[z;s]+b1)
pr2=relu(W2·pr1+b2)
p=softmax(W3·pr2+b3)
其中,W1,b1,W2,b2,W3,b3是待训练的参数,[;]表示拼接操作,p为实体提及被链接到当前候选ID的概率;
(3.5)基于知识表示的实体消歧模型通过一个二元交叉熵损失函数进行训练,公式如下:
其中,n是训练样例个数,yi是第i个样例对应的正确标签,pi是第i个样例的预测概率,λ||W||为训练参数的正则项;
生物医学实体消歧模型为每个实体提及与其候选ID进行打分并排序,选择得分最高的候选ID作为最终的链接结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910297065.X/1.html,转载请声明来源钻瓜专利网。