[发明专利]一种基于生物医学知识图谱推理的药物识别方法有效
申请号: | 201811127803.8 | 申请日: | 2018-09-27 |
公开(公告)号: | CN109325131B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 杨志豪;桑盛田 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N3/08;G16H20/10 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 徐雪莲 |
地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于生物医学知识图谱推理的药物识别方法,该方法包括以下步骤:S1、下载生物医学文本数据;S2、构造生物医学知识图谱;S3、构造药物‑靶标‑疾病关系数据集;S4、使用图嵌入的方法对图进行表示学习;S5、训练基于长短记忆神经网络的药物发现模型步骤;S6、使用训练好的模型进行药物识别步骤。本发明适用于寻找疾病潜在的治疗药物,不限于疾病和药物的种类;能够有效的从文献中发现治疗疾病的药物,对药物发现领域具有重要的意义。 | ||
搜索关键词: | 一种 基于 生物 医学知识 图谱 推理 药物 识别 方法 | ||
【主权项】:
1.一种基于生物医学知识图谱推理的药物识别方法,其特征在于:包括以下步骤:S1、下载生物医学文本数据:在医学文献检索系统中下载生物医学文献,并将下载得到的生物医学文献全文以字符串的形式存储在本地,得到生物医学文献库;S2、构造生物医学知识图谱:包括以下步骤:a1、抽取实体间关系:利用关系抽取工具SemRep从所述生物医学文献库中抽取得到生物实体间关系,并将抽取得到的生物实体间关系以字符串的形式存储在本地;a2、基于频率的候选实体关系过滤:预设最小频率阈值,并将在步骤a1中得到的生物实体间关系中出现次数小于预设最小频率阈值的生物实体间关系过滤掉,得到用于构造生物医学知识图谱的实体间关系数据集S;a3、构造生物医学知识图谱:利用步骤a2得到的实体间关系数据集S构造知识图谱;在知识图谱中以实体间关系数据集S中的各个生物实体作为节点,知识图谱中的边为实体间关系数据集S中生物实体间关系,从而得到生物医学知识图谱;S3、构造药物‑靶标‑疾病关系数据集:在生物医学知识图谱中,建立药物‑靶标‑疾病三元关系路径e0r0e1r1e2r2...el‑1rl‑1el,其中e0,e1,e2,...,el‑1,el为生物医学知识图谱中的节点,e0为药物,e1,e2,...,el‑1中至少一个为药物e0的靶标,el为疾病,r0,r1,r2,...,rl‑1分别为e0,e1,e2,...,el‑1,el中相邻节点间的生物实体间关系,l为实体e0到实体el的路径长度,l≥2;以正例路径数据和负例路径数据构成药物‑靶标‑疾病关系数据集;所述正例路径的构造方法:对于一个已知的药物‑靶标‑疾病三元关系,首先通过路径搜索算法构造路径长度为l的训练集πl=ρ(药物→疾病;靶标,l),其中,ρ()为广度优先搜索算法,l≥2,πl为在生物医学知识图谱中以该已知药物为起点,以已知的药物‑靶标‑疾病三元关系中的疾病为终点且穿过已知的药物‑靶标‑疾病三元关系中的靶标且长度为l的所有路径;然后使用相同的路径搜索算法构造出长度为2到l的所有路径数据的集合P={π2,π3...πl}作为训练药物发现模型的正例路径数据;所述负例路径的构造方法:对于所述已知的药物‑靶标‑疾病三元关系,首先通过随机替换的方式将已知的药物‑靶标‑疾病三元关系中的药物、靶标、疾病分别替换成Therapeutic Target Database数据库中的已知药物、靶标和疾病构造出随机药物‑靶标‑疾病三元关系:药物’‑靶标’‑疾病’,并保证该随机药物‑靶标‑疾病三元关系在Therapeutic Target Database数据库中不存在;然后使用路径搜索算法构造数据集P'={π'2,π'3...π'l}作为训练药物发现模型的负例路径数据;S4、使用图嵌入的方法对图进行表示学习:利用图嵌入方法将表示形式为图结构的数据转化成低维空间向量表示的数据,具体方法为:在步骤a3构造的生物医学知识图谱中,使用(s,r,t)表示该生物医学知识图谱中一条边的头结点s、尾节点t及头节点与尾节点之间的关系r,利用图嵌入方法将头节点s、尾节点t及头节点与尾节点之间的关系r分别转化为头节点向量Vs、尾节点向量Vt及头节点与尾节点之间的关系向量Vr,Vs、Vt及Vr的向量长度均为m,m≥2;图嵌入方法的目标函数为
其中,d()为距离函数,[]+表示取正数;γ为超参数;(s’,r,t’)为(s,r,t)的负例数据,VS’,Vt’分别为负例数据的头节点向量和尾节点向量,其中负例(s’,r,t’)的构造过程为使用Therapeutic Target Database数据库中的实体s’和t’随机替换(s,r,t)中的头结点s和尾节点t,并保证该头节点s’和尾节点t’在步骤a3构造的生物医学知识图谱中不通过关系r相连,S’为所有负例数据的集合;将所述图嵌入方法的目标函数通过使用梯度下降方法进行优化,最后将更新后得到的向量作为生物医学知识图谱中节点和边的向量表示;S5、训练基于长短记忆神经网络的药物发现模型步骤:利用长短记忆神经网络对步骤S3构造好的药物‑靶标‑疾病关系数据集进行有监督学习建模,其具体过程如下:b1、将药物疾病关系数据集表示为向量形式:使用步骤S4中得到的生物医学知识图谱中节点和边的向量表示对步骤S3构造的药物‑靶标‑疾病三元关系路径e0r0e1r1e2r2…rl‑1el中的每一个实体e0,e1,e2,...,el‑1,el和生物实体间关系r0,r1,r2,...,rl‑1进行向量表示,使该药物‑靶标‑疾病三元关系路径转化为m×l维矩阵Pmatrix=e0r0e1r1e2r2…rl‑1el,得到药物‑靶标‑疾病三元关系矩阵;b2、构造及训练长短记忆神经网络:以药物‑靶标‑疾病三元关系矩阵Pmatrix=e0r0e1r1e2r2…rl‑1el为输入训练长短记忆神经网络:长短记忆神经网络的构造如下:![]()
![]()
![]()
ct=f⊙ct‑l+i⊙ght=o⊙tanh(ct)其中i为输入门向量,f为忘记门向量,o为输出门向量,g为临时状态向量,ct为t时刻细胞激活向量;xt是t时刻输入的实体向量,h为隐层向量,ht为t时刻的隐层向量,⊙是位乘操作,σ为sigmod函数;初始输入时h0=e0,
和bi,bf,bo,bg为可训练参数;训练方法:对于给定疾病时候选药物的概率:p(y|Pmatrix)=σ([Whzht+b]),其中Whz为t时刻隐层h与输出层z间的向量,ht为t时刻隐层向量,b为与隐层向量维度相同的向量;定义目标函数为L(θ)=‑σlog(p(y|Pmatrix)),其中Pmatrix为药物‑靶标‑疾病关系路径的矩阵,σ为sigmod函数;并在训练数据上迭代地进行优化,直到所有参数收敛或达到预设的终止条件为止:即损失函数差小于10e‑5;输出训练好的参数集合θ,其中θ包括
和bi,bf,bo,bg,从而得到长短记忆神经网络模型D(·);S6、使用训练好的模型进行药物识别步骤:对于给定的疾病,评价潜在药物drugpotential治疗该疾病的可能性的步骤为:首先构造所有起点为drugpotential终点为diseasepotential且穿过targetpotential的路径集Ppotential={ρ(drugpotential→disease;targetpotential)},其中targetpotential为Therapeutic Target Database数据库中的所有药物靶标;然后使用打分函数
对药物drugpotential进行打分,根据分值进行降序排列得到在候选药物中的排名,从而识别出对于给定疾病的最优药物选择;其中g(p)表示使用步骤b1将药物‑靶标‑疾病路径p转化为药物‑靶标‑疾病三元关系矩阵,D(·)和θ分别为由b2步骤训练得到的长短记忆神经网络模型和对应参数集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811127803.8/,转载请声明来源钻瓜专利网。