[发明专利]基于变分自编码器的药物-疾病关联预测方法有效

专利信息
申请号: 202110496613.9 申请日: 2021-05-07
公开(公告)号: CN113223655B 公开(公告)日: 2023-05-12
发明(设计)人: 鱼亮;陈生建 申请(专利权)人: 西安电子科技大学
主分类号: G16H20/10 分类号: G16H20/10;G16B50/00;G16H50/70;G16H50/20
代理公司: 陕西电子工业专利中心 61205 代理人: 陈宏社;王品华
地址: 710071*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 编码器 药物 疾病 关联 预测 方法
【权利要求书】:

1.一种基于变分自编码器的药物-疾病关联预测方法,其特征在于,包括如下:

(1)构建药物-疾病关联矩阵A和疾病-药物关联矩阵B:

(1a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的N种疾病T={T1,T2,...,Tn,...,TN}的K条药物-疾病关联数据E={E1,E2,...,Ek,...,EK},每种药物Sm至少与一种疾病关联,且每种疾病Tn至少与一种药物关联,其中,K≥1000,M≥100,N≥200,Sm表示第m种药物,Tn表示第n种疾病,1≤m≤M,1≤n≤N,Ek表示第k条药物-疾病关联;

(1b)构建大小为M×N且第m行第n列元素Amn的值为0或1的药物-疾病关联矩阵A,并对A进行转置,得到疾病-药物关联矩阵B,其中,Amn的值为0时表示Amn对应的第m种药物和第n种疾病的关联不在药物-疾病关联数据E中,Amn的值为1时表示Amn对应的第m种药物和第n种疾病的关联在药物-疾病关联数据E中;

(2)构建药物特征矩阵C和疾病特征矩阵D:

(2a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的P种基因G={G1,G2,...,Gp,...,GP}的Q条药物-基因关联数据R={R1,R2,...,Rq,...,RQ},每种药物Sm至少与一种基因关联,且每种基因Gp至少与一种药物关联;构建大小为M×P且第m行第p列元素C′mp的值为0或1的药物-基因关联矩阵C′,其中,C′mp的值为0时表示C′mp对应的第m种药物和第p种基因的关联不在药物-基因关联数据R中,C′mp的值为1时表示C′mp对应的第m种药物和第p种基因的关联在药物-基因关联数据R中,P≥200,Q≥1000,1≤m≤M,1≤p≤P,Gp表示第p种基因,Rq表示第q条药物-基因关联;

(2b)从数据库中获取与N种疾病T={T1,T2,...,Tn,...,TN}存在关联的O种基因G={G1,G2,...,Go,...,GO}的J条疾病-基因关联数据U={U1,U2,...,Uj,...,UJ},每种疾病Tn至少与一种基因关联,且每种基因Go至少与一种疾病关联;构建大小为N×O且第n行第o列元素D′no的值为0或1的疾病-基因关联矩阵D′,其中,D′的值为0时表示D′no对应的第n种疾病和第o种基因的关联不在疾病-基因关联数据U中,D′的值为1时表示D′no对应的第n种疾病和第o种基因的关联在疾病-基因关联数据U中,O≥200,J≥1000,1≤n≤N,1≤o≤O,Uj表示第j条疾病-基因关联;

(2c)对大小为M×P的C′和大小为N×O的D′分别进行降维,得到大小为M×V的药物特征矩阵C和大小为N×W的疾病特征矩阵D,其中,C中的每一行为该行药物的特征,D中的每一行为该行疾病的特征,1≤V≤P,1≤W≤O;

(3)搭建基于变分自编码器的药物-疾病关联预测模型H:

(3a)搭建基于变分自编码器的药物-疾病关联预测模型H结构:

构建包括并行排列的第一变分自编码器f1和第二变分自编码器f2的药物-疾病关联预测模型H,其中,第一变分自编码器f1采用包括顺次连接的第一编码器fe1、第一隐变量层fz1和第一解码器fd1的神经网络,fe1包括多个全连接层和一个均值方差层,fz1的输出端连接有第一数据融合模块,fd1包括多个全连接层和一个sigmoid激活函数输出层,f1的权值参数为第二变分自编码器f2包括顺次连接的第二编码器fe2、第二隐变量层fz2和第二解码器fd2,fe2包括多个全连接层和一个均值方差层,fz2的输出端连接有第二数据融合模块,fd2包括多个全连接层和一个sigmoid激活函数输出层,f2的权值参数为

(3b)定义第一变分自编码器f1的损失函数Loss1和第二变分自编码器f2的损失函数Loss2:

其中,x表示f1的输入数据,表示f1的预测结果,Lre表示f1的重构损失,POx表示x中值为1的元素集合,POx={xi|xi=1,1≤i≤N},NPx表示x中值为0的元素集合,NPx={xj|xj=0,1≤j≤N},xi和xj分别表示x的第i个和第j个元素,β表示非正例损失衰减因子,非正例表示当前关联不在已知关联中,β∈[0,1];表示均值为μx方差为的正态分布,N(0,1)表示标准正太分布,表示和N(0,1)的相对熵,μx和δx分别表示f1输入为x时fe1的输出,α表示相对熵损失衰减因子,α∈[0,1];y表示f2的输入数据,表示f2的预测结果,

(4)对基于变分自编码器的药物-疾病关联预测模型H进行迭代训练:

(4a)初始化迭代次数为i,最大迭代次数为I,I≥300,第i次迭代第一变分自编码器f1的权值参数为和第二变分自编码器f2的权值参数为并令i=0,

(4b)将药物-疾病关联矩阵A和药物特征C作为药物-疾病关联预测模型H中的第一变分自编码器f1的输入,第一编码器fe1对A进行逐行编码,第一隐变量层fz1对fe1编码的均值μf1_i和方差所构成的正态分布进行采样,第一数据融合模块对fz1所采集的维度为V的隐变量与药物特征C中对应行的药物c进行相加融合,第一解码器fd1对第一数据融合模块的融合结果进行解码,得到预测的药物-疾病关联矩阵

(4c)将疾病-药物关联矩阵B和疾病特征D作为药物-疾病关联预测模型H中的第二变分自编码器f2的输入,第二编码器fe2对B进行逐行编码,第二隐变量层fz2对fe2编码的均值和方差所构成的正太分布进行采样,第二数据融合模块对fz2所采集的维度为W的隐变量与药物特征D中对应行的药物d进行相加融合,第二解码器fd2对第二数据融合模块的融合结果进行解码,得到预测的疾病-药物关联矩阵

(4d)采用损失函数Loss1,并通过A和计算H中的第一变分自编码器f1的损失值L1i,同时采用损失函数Loss2并通过B和计算H中的第二变分自编码器f2的损失值L2i

(4e)采用反向传播方法,并通过L1i计算f1的参数梯度,然后采用梯度下降算法通过f1的参数梯度对f1的权值参数进行更新;同时采用反向传播方法,并通过L2i计算f2的参数梯度,然后采用梯度下降算法通过f2的参数梯度对f2的权值参数进行更新;

(4f)判断i≥I是否成立,若是,得到训练好的药物-疾病关联预测模型H′,否则,令i=i+1,并执行步骤(4b);

(5)获取药物-疾病关联预测结果Y:

将药物-疾病关联矩阵A和药物特征C作为训练好的药物-疾病关联预测模型H′中的第一变分自编码器f1的输入进行前向传播,得到f1预测的药物-疾病关联集Y1,同时将疾病-药物关联矩阵B和疾病特征D作为训练好的药物-疾病关联预测模型H′中的第二变分自编码器f2的输入进行前向传播,得到f2预测的药物-疾病关联集Y2,Y1与Y2的交集Y=Y1∩Y2即为药物-疾病关联预测结果,其中∩表示交集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110496613.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top