[发明专利]一种基于双随机游走模型的miRNA-疾病关联预测方法在审
申请号: | 201910158307.7 | 申请日: | 2019-03-01 |
公开(公告)号: | CN109935332A | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 樊永显;朱庆祺;张向文;张龙 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G16H50/50 | 分类号: | G16H50/50;G16B5/00 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 刘梅芳 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于双随机游走模型的miRNA‑疾病关联预测方法,其特征在于,包括如下步骤:1)获取已知miRNA‑疾病关联数据集,构建关于miRNA‑疾病关联的邻接矩阵;2)分别构建miRNA和疾病的高斯相互作用属性核相似性矩阵;3)构建miRNA功能相似性矩阵以及疾病语义相似性矩阵;4)使用相似网络融合算法整合疾病和miRNA的相似性;5)依据双随机游走模型来预测miRNA‑疾病关联关系。这种方法成本低、耗时短,比现有的方法预测精度高。 | ||
搜索关键词: | 疾病 随机游走模型 构建 矩阵 预测 关联 功能相似性 关联数据集 相似性矩阵 语义相似性 关联关系 邻接矩阵 融合算法 相似网络 属性核 高斯 整合 耗时 | ||
【主权项】:
1.一种基于双随机游走模型的miRNA‑疾病关联预测方法,其特征在于,包括如下步骤:1)获取miRNA‑疾病关联数据集,构建关于miRNA‑疾病关联的邻接矩阵:从HMDD数据库中获取经生物实验证实的miRNA‑疾病关联数据,得到5430对不同的miRNA和疾病关联数据,其中涉及疾病种类383种,miRNA种类495种,定义D={d(1),d(2),d(3),...,d(nd)}来记nd种疾病的集合,M={m(1),m(2),m(3),...,m(nm)}来记nm种miRNA的集合,构建邻接矩阵MDnd×nm表示miRNA和疾病关联数据的关系,当疾病d(i)和miRNA m(j)被验证为关联时,邻接矩阵MDnd×nm中MD(i,j)的值设为1;反之,MD(i,j)的值设为0,表示未知的关联;2)分别构建miRNA和疾病的高斯相互作用属性核相似性矩阵:依据步骤1)建立的邻接矩阵MDnd×nm,首先,构建miRNA高斯相互作用属性核相似性矩阵KM:miRNA m(i)和m(j)的高斯相互作用属性核相似性计算如公式(1)和公式(2)所示:KM(m(i),m(j))=exp(‑γm||MD(m(i))‑MD(m(j))||2) (1),
其中,MD(m(i))和MD(m(j))分别表示邻接矩阵MD的第i列向量和第j列向量,||·||是求向量的范数,参数γm定义为高斯相互作用属性核的带宽,由所有miRNA两两之间的高斯相互作用属性核相似性构建miRNA高斯相互作用属性核相似性矩阵KM;其次,构建疾病高斯相互作用属性核相似性矩阵KD:疾病d(i)和d(j)之间的高斯相互作用属性核相似性计算如公式(3)和公式(4)所示:KD(d(i),d(j))=exp(‑γd||MD(d(i))‑MD(d(j))||2) (3),
其中,MD(d(i))和MD(d(j))分别表示邻接矩阵MD的第i行向量和第j行向量,||·||是求向量的范数,参数γd定义为高斯相互作用属性核的带宽,由所有疾病两两之间的高斯相互作用属性核相似性构建疾病高斯相互作用属性核相似性矩阵KD;3)构建miRNA功能相似性矩阵以及疾病语义相似性矩阵:首先,构建miRNA功能相似性矩阵MFS,先从网站:http://www.cuilab.cn/获取miRNA功能相似性分数,然后,构建具有495行和495列的miRNA功能相似性矩阵MFS,其中元素MFS(i,j)表示miRNA m(i)和miRNA m(j)之间的功能相似性分数,其次,采用疾病语义相似性模型1,构建疾病语义相似性矩阵DSS1,Mesh数据库提供了疾病的严格分类系统,每一种疾病都可以定义为有向无环图(DAG),DAG是由数据节点和连接边组成,给定一种疾病d,DAG=(d,T(d),(E(d)),其中T(d)表示祖先节点及其自身,E(d)表示d的连接边的集合,疾病t是T(d)中的一个节点,对疾病d的贡献值计算如公式(5):
定义疾病d对自身的贡献值为1,而对其他疾病的贡献值则取决于语义贡献因子λ,因此,根据公式(6)计算疾病d的语义值:
然后,通过公式(7)计算疾病a和疾病b之间的语义相似性:
其中,Da(t)表示疾病t对疾病a的贡献值,Db(t)表示疾病t对疾病b的贡献值,由此可见,疾病a和疾病b之间的语义相似性依赖于两者之间的共同疾病的数量,数量越大,相似性越大,DSS1是基于疾病语义相似性模型1计算得到的一个383行和383列的疾病语义相似性矩阵,最后,采用疾病语义相似性模型2,构建疾病语义相似性矩阵DSS2,每种疾病可以描述为分层DAG,其中父节点代表更普遍的疾病,而子节点代表更具体的疾病,根据疾病语义相似性模型1,同一层DAG(d)中不同疾病对疾病d语义值的贡献处于同一水平,然而,这些疾病可能出现在其他DAG中,并且它们出现的DAG的数量可能不同,因此,区分这些疾病的贡献,其他DAG中出现的疾病的贡献应该更少发生在DAG较少的特定疾病中,疾病t对疾病d的语义值的贡献计算如公式(8):
疾病d的语义值定义如公式(9)::
疾病a和疾病b之间的语义相似性计算如公式(10):
DSS2是基于疾病语义相似性模型2计算得到的一个383行和383列的疾病语义相似性矩阵;4)使用相似网络融合算法整合疾病和miRNA的相似性:每一个疾病‑疾病相似矩阵可以表示为图G={D,E},其中D={d1,d2,…,dn}为疾病的集合,E是连接疾病‑疾病的边的集合,每条边上都有相似权重,将相应的相似性矩阵记为W,W(i,j)表示为疾病di和疾病dj的相似性,从疾病高斯相互作用属性核相似性矩阵KD、疾病语义相似性矩阵DSS1和疾病语义相似性矩阵DSS2,这三个已知的疾病‑疾病相似矩阵中计算得到一个最终的疾病‑疾病相似矩阵,在每个矩阵上定义了一个全稀疏核,全稀疏核标准化后权值矩阵为P=D‑1W,其中D为一个对角矩阵,D(i,j)=∑jW(i,j),由于P涉及W对角线的自相似性,可能会导致P数值的不稳定性,所以更好的标准化如公式(11):
用Ni表示在疾病‑疾病相似网络中di的邻居,用KNN算法衡量局部亲和力如公式(12):
考虑到疾病与邻居之间的相似性比疾病与远程疾病之间的相似性更加可靠,通过图扩散,可以将相似性传播到远程疾病,矩阵P携带疾病‑疾病相似网络的所有信息,矩阵S携带网络的局部相似信息,然后,进行如公式(12)迭代计算:
这里Pt(i)是t(>=0)次迭代后第i个相似矩阵(网络),S(i)是第i个相似矩阵网络的KNN矩阵,m是相似网络的数量,S是P的KNN邻域矩阵,在每次迭代中,每个相似性矩阵网络可以从其他相似性矩阵网络获得可靠信息,并且还用其他相似性矩阵网络更新自身,在t次迭代之后,融合矩阵网络计算如公式(14):
每次迭代计算后要对矩阵Pt进行标准化,以确保矩阵是满秩的。以上通过相似网络融合算法,将疾病高斯相互作用属性核相似性矩阵KD、疾病语义相似性矩阵DSS1、疾病语义相似性矩阵DSS2进行融合,得到最终的一个疾病‑疾病相似性矩阵DS,以同样的方法,得到最终的miRNA‑miRNA相似性矩阵MS;5)依据双随机游走模型来预测miRNA‑疾病关联关系:在miRNA网络上随机游走如公式(15):RWm=α·MDt‑1·MS+(1‑α)·A (15),在疾病网络上随机游走如公式(16):RWd=α·DS·MDt‑1+(1‑α)·A (16),其中,α是衰减因子,MS是miRNA相似矩阵,DS是疾病相似矩阵,A为miRNA‑疾病关联矩阵,RWm和RWd分别表示在miRNA相似网络和疾病相似网络上基于随机游走的预测miRNA‑疾病关联关系得分概率矩阵,最后,综合RWm和RWd得到最终的miRNA‑疾病关联关系得分概率矩阵。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910158307.7/,转载请声明来源钻瓜专利网。