[发明专利]基于变分自编码器的药物-疾病关联预测方法有效
申请号: | 202110496613.9 | 申请日: | 2021-05-07 |
公开(公告)号: | CN113223655B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 鱼亮;陈生建 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G16H20/10 | 分类号: | G16H20/10;G16B50/00;G16H50/70;G16H50/20 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 陈宏社;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 编码器 药物 疾病 关联 预测 方法 | ||
1.一种基于变分自编码器的药物-疾病关联预测方法,其特征在于,包括如下:
(1)构建药物-疾病关联矩阵A和疾病-药物关联矩阵B:
(1a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的N种疾病T={T1,T2,...,Tn,...,TN}的K条药物-疾病关联数据E={E1,E2,...,Ek,...,EK},每种药物Sm至少与一种疾病关联,且每种疾病Tn至少与一种药物关联,其中,K≥1000,M≥100,N≥200,Sm表示第m种药物,Tn表示第n种疾病,1≤m≤M,1≤n≤N,Ek表示第k条药物-疾病关联;
(1b)构建大小为M×N且第m行第n列元素Amn的值为0或1的药物-疾病关联矩阵A,并对A进行转置,得到疾病-药物关联矩阵B,其中,Amn的值为0时表示Amn对应的第m种药物和第n种疾病的关联不在药物-疾病关联数据E中,Amn的值为1时表示Amn对应的第m种药物和第n种疾病的关联在药物-疾病关联数据E中;
(2)构建药物特征矩阵C和疾病特征矩阵D:
(2a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的P种基因G={G1,G2,...,Gp,...,GP}的Q条药物-基因关联数据R={R1,R2,...,Rq,...,RQ},每种药物Sm至少与一种基因关联,且每种基因Gp至少与一种药物关联;构建大小为M×P且第m行第p列元素C′mp的值为0或1的药物-基因关联矩阵C′,其中,C′mp的值为0时表示C′mp对应的第m种药物和第p种基因的关联不在药物-基因关联数据R中,C′mp的值为1时表示C′mp对应的第m种药物和第p种基因的关联在药物-基因关联数据R中,P≥200,Q≥1000,1≤m≤M,1≤p≤P,Gp表示第p种基因,Rq表示第q条药物-基因关联;
(2b)从数据库中获取与N种疾病T={T1,T2,...,Tn,...,TN}存在关联的O种基因G={G1,G2,...,Go,...,GO}的J条疾病-基因关联数据U={U1,U2,...,Uj,...,UJ},每种疾病Tn至少与一种基因关联,且每种基因Go至少与一种疾病关联;构建大小为N×O且第n行第o列元素D′no的值为0或1的疾病-基因关联矩阵D′,其中,D′的值为0时表示D′no对应的第n种疾病和第o种基因的关联不在疾病-基因关联数据U中,D′的值为1时表示D′no对应的第n种疾病和第o种基因的关联在疾病-基因关联数据U中,O≥200,J≥1000,1≤n≤N,1≤o≤O,Uj表示第j条疾病-基因关联;
(2c)对大小为M×P的C′和大小为N×O的D′分别进行降维,得到大小为M×V的药物特征矩阵C和大小为N×W的疾病特征矩阵D,其中,C中的每一行为该行药物的特征,D中的每一行为该行疾病的特征,1≤V≤P,1≤W≤O;
(3)搭建基于变分自编码器的药物-疾病关联预测模型H:
(3a)搭建基于变分自编码器的药物-疾病关联预测模型H结构:
构建包括并行排列的第一变分自编码器f1和第二变分自编码器f2的药物-疾病关联预测模型H,其中,第一变分自编码器f1采用包括顺次连接的第一编码器fe1、第一隐变量层fz1和第一解码器fd1的神经网络,fe1包括多个全连接层和一个均值方差层,fz1的输出端连接有第一数据融合模块,fd1包括多个全连接层和一个sigmoid激活函数输出层,f1的权值参数为第二变分自编码器f2包括顺次连接的第二编码器fe2、第二隐变量层fz2和第二解码器fd2,fe2包括多个全连接层和一个均值方差层,fz2的输出端连接有第二数据融合模块,fd2包括多个全连接层和一个sigmoid激活函数输出层,f2的权值参数为
(3b)定义第一变分自编码器f1的损失函数Loss1和第二变分自编码器f2的损失函数Loss2:
其中,x表示f1的输入数据,表示f1的预测结果,Lre表示f1的重构损失,POx表示x中值为1的元素集合,POx={xi|xi=1,1≤i≤N},NPx表示x中值为0的元素集合,NPx={xj|xj=0,1≤j≤N},xi和xj分别表示x的第i个和第j个元素,β表示非正例损失衰减因子,非正例表示当前关联不在已知关联中,β∈[0,1];表示均值为μx方差为的正态分布,N(0,1)表示标准正太分布,表示和N(0,1)的相对熵,μx和δx分别表示f1输入为x时fe1的输出,α表示相对熵损失衰减因子,α∈[0,1];y表示f2的输入数据,表示f2的预测结果,
(4)对基于变分自编码器的药物-疾病关联预测模型H进行迭代训练:
(4a)初始化迭代次数为i,最大迭代次数为I,I≥300,第i次迭代第一变分自编码器f1的权值参数为和第二变分自编码器f2的权值参数为并令i=0,
(4b)将药物-疾病关联矩阵A和药物特征C作为药物-疾病关联预测模型H中的第一变分自编码器f1的输入,第一编码器fe1对A进行逐行编码,第一隐变量层fz1对fe1编码的均值μf1_i和方差所构成的正态分布进行采样,第一数据融合模块对fz1所采集的维度为V的隐变量与药物特征C中对应行的药物c进行相加融合,第一解码器fd1对第一数据融合模块的融合结果进行解码,得到预测的药物-疾病关联矩阵
(4c)将疾病-药物关联矩阵B和疾病特征D作为药物-疾病关联预测模型H中的第二变分自编码器f2的输入,第二编码器fe2对B进行逐行编码,第二隐变量层fz2对fe2编码的均值和方差所构成的正太分布进行采样,第二数据融合模块对fz2所采集的维度为W的隐变量与药物特征D中对应行的药物d进行相加融合,第二解码器fd2对第二数据融合模块的融合结果进行解码,得到预测的疾病-药物关联矩阵
(4d)采用损失函数Loss1,并通过A和计算H中的第一变分自编码器f1的损失值L1i,同时采用损失函数Loss2并通过B和计算H中的第二变分自编码器f2的损失值L2i;
(4e)采用反向传播方法,并通过L1i计算f1的参数梯度,然后采用梯度下降算法通过f1的参数梯度对f1的权值参数进行更新;同时采用反向传播方法,并通过L2i计算f2的参数梯度,然后采用梯度下降算法通过f2的参数梯度对f2的权值参数进行更新;
(4f)判断i≥I是否成立,若是,得到训练好的药物-疾病关联预测模型H′,否则,令i=i+1,并执行步骤(4b);
(5)获取药物-疾病关联预测结果Y:
将药物-疾病关联矩阵A和药物特征C作为训练好的药物-疾病关联预测模型H′中的第一变分自编码器f1的输入进行前向传播,得到f1预测的药物-疾病关联集Y1,同时将疾病-药物关联矩阵B和疾病特征D作为训练好的药物-疾病关联预测模型H′中的第二变分自编码器f2的输入进行前向传播,得到f2预测的药物-疾病关联集Y2,Y1与Y2的交集Y=Y1∩Y2即为药物-疾病关联预测结果,其中∩表示交集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110496613.9/1.html,转载请声明来源钻瓜专利网。