[发明专利]一种基于领域知识的药物致病关系抽取方法有效
申请号: | 202010039800.X | 申请日: | 2020-01-15 |
公开(公告)号: | CN111276258B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 杨志豪;李智恒 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16H70/40 | 分类号: | G16H70/40;G06N3/08;G06N3/04;G06F16/36;G06F40/295 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本;徐雪莲 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 领域 知识 药物 致病 关系 抽取 方法 | ||
1.一种基于领域知识的药物致病关系抽取方法,其特征在于包括以下步骤:
步骤1、处理药物致病关系数据集,从已有的药物致病关系抽取评测任务中收集药物致病关系数据集,数据集中已标注出药物实体和疾病实体,以句子为单位,将药物实体与疾病实体组成实体对,按照训练集中标注的关系,处理成句子级别的实例,再将实例进行去重,词干化,去停用词,确定每个词语相对于实体的位置信息,最终得到句子级别的训练集;
步骤2、构建领域知识集合,将训练实例中的药物实体和疾病实体进行统计,并在比较毒理基因组学数据库中找到相关实体信息,获得与训练集中的实体相关的药物实体和疾病实体,并组成药物-疾病关系对,由于比较毒理基因组学数据库中记录了药物和疾病的诱导关系,因此,组成的药物-疾病关系对为药物致病关系对;除此之外,比较毒理基因组学数据库中还记录了基因、蛋白质和药物、疾病之间的关系,抽取出所有的关系,以三元组的形式构建成领域知识集合;
步骤3、根据领域知识构建实体-关系图,对于每一个实例,首先利用命名实体识别工具识别出句子中的所有基因、蛋白质实体,识别出的基因、蛋白质实体和数据集中预标的药物、疾病实体由多个词语组成,对于多个词语组成的命名实体,在实例中用边将实体名称与组成该实体名称的词语连接起来,形成实体图;另外,将实例中的所有实体进行两两组队,若两个实体组成的实体对出现在领域知识集合中,则将实例中这两个实体之间构建一条边,由此,得到以实例中所有词语和实体名称短语为节点,实体内部和实体间的关系作为边的图;
步骤4、实例中词语的向量表示,利用无监督训练模型对实例中的词语进行分布式表示,将实例中的每个词语表示为向量形式,作为词向量,具体作法为:对于实例中的每个词语定义一个d维实数向量,每一维实数向量为一个变量,每个词语与其前后k个词组成词语序列,其中d、k为自然数,使用Skip-Gram模型,将d维实数向量作为Skip-Gram模型的输入变量,通过损失函数和求导公式对Skip-Gram模型中的参数与输入变量进行更新,最后,将更新后得到的d维实数向量作为当前词语的词向量;除了词语的词向量之外,词语的位置向量也很重要,根据步骤1得到的每个词语相对于实体的位置信息,随机初始化成位置向量,拼接在词向量后面,得到词语的向量表示;
步骤5、搭建KB-GCN神经网络模型,具体包括以下子步骤:
(a)、确定KB-GCN神经网络模型的整体结构,该模型由基于双向长短时记忆神经网络的句子序列编码层,基于图神经网络的关系图编码层及在特征融合层后置softmax分类层所构成,最终得到药物致病关系的预测结果;
(b)、搭建基于双向长短时记忆神经网络LSTM的编码层,该编码层包含一个正向和一个反向的长短时记忆神经网络结构,用于对词语进行编码,然后通过双向的长短时记忆神经网络的最终时刻的向量拼接得到编码后的文本特征表示,基于双向长短时记忆神经网络编码层对词语进行编码的过程通过公式(1)-(3)进行描述,
式中,LSTMf()表示正向的长短时记忆神经网络,LSTMb()表示反向的长短时记忆神经网络,wtemb为第t个词的向量表示,其中包括预训练的词向量和随机初始化的位置向量,为第t-1个词的正向隐层表示,hbt+1为第t+1个词的反向隐层表示,为第t个词的正向的隐层表示,htb为第t个词的反向的隐层表示,Hs表示实例的句子序列向量;
(c)、搭建基于图神经网络的关系图编码层,该编码层包含两个图卷积神经网络GCN层,用于对结合领域知识构建的实体-关系图进行编码,该编码层的过程通过公式(4)进行描述,
式中,Aij表示图的邻接矩阵,W(l)表示权重矩阵,b(l)表示权重向量,ρ表示RELU激活函数,gi(l)为第l层图卷积神经网络中第i个节点的向量表示,由于图中的每个节点即为输入句子中的词语,得到每个节点的编码表示之后,对整个图沿句子长度进行最大池化操作,最终得到图的整体表示,通过公式(5)进行描述,
Gi=max(gi) (5)
式中,gi表示节点向量中的第i维度数值,Gi表示该维度数值中的最大值,将每一维度的表示进行拼接,即可得到图的整体表示Gs;
(d)、对基于双向长短时记忆神经网络LSTM的编码层和基于图神经网络的关系图编码层得到的特征向量进行拼接,通过线性映射操作以及使用softmax函数进行归一化处理,得到该输入实例的分类结果,通过公式(6)进行描述,
ys=Softmax(W[Hs;Gs]) (6)
式中,ys表示KB-GCN神经网络模型的输出向量,向量的每个值表示该词语属于每个标签的概率,通过对输出向量ys进行argmax操作得到最终分类的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010039800.X/1.html,转载请声明来源钻瓜专利网。