[发明专利]基于不平衡邻居约束随机游走的LncRNA-疾病关联预测方法在审
申请号: | 202310286302.9 | 申请日: | 2023-03-21 |
公开(公告)号: | CN116646012A | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 顾国生;刘世刚;谢国波;林志毅;谢伟洁;许浩杰 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/00;G06F18/22;G06F17/11;G06F17/16 |
代理公司: | 广州中坚知识产权代理事务所(特殊普通合伙) 44515 | 代理人: | 赖丽娟 |
地址: | 510000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 不平衡 邻居 约束 随机 游走 lncrna 疾病 关联 预测 方法 | ||
本发明提供一种基于不平衡邻居约束随机游走的LncRNA‑疾病关联预测方法(LNS‑NCURW),包括以下步骤:S1:获取LncRNA‑疾病邻接矩阵A,融合LncRNA的表达相似性矩阵(LES)、功能相似性矩阵(LFS)和高斯相似性矩阵(LGS)得到LncRNA综合相似性矩阵(LS),融合疾病的语义相似性矩阵(DSS)和高斯相似性矩阵(DGS)得到疾病综合相似性矩阵(DS),并使用WKNKN算法来获取潜在的关联关系得到关联矩阵Y;S2:使用线性邻域相似性方法(LNS)重构LncRNA和疾病的相似性得到ILLS和ILDS,再分别计算LncRNA和疾病的邻居约束转移矩阵NCl和NCd;S3:整合lncRNA和疾病的相似性信息,通过矩阵乘法的结果更新关联矩阵Y,再利用邻居约束不平衡随机游走方法分别从LncRNA网络和疾病网络预测LncRNA‑疾病关联预测评分,然后再综合LncRNA网络方向评分和疾病方向评分得到最终预测得分P_SCORE。本发明引入了邻居约束来控制随机游走的游走方向,使得节点随机游走的时候往关联性更高的节点游走,使得关联性弱的节点得分低,而关联性高的节点得分高,从而提高预测的精准性,实现了lncRNA‑疾病的关联预测。
技术邻域
本发明涉及机器学习与生物基因结合邻域,更具体地,涉及一种基于不平衡邻居约束随机游走的LncRNA-疾病关联预测方法。
背景技术
LncRNA(long non-coding RNA)是长度大于200个核苷酸的RNA,近年来越来越多的研究揭示lncRNA独特的转录、加工、输出与它们的细胞命运和功能密切相关,并且广泛参与基本的调控过程。比如,作为转录调节因子,细胞周期调控、表观遗传调控、免疫监测。特别是,lncRNA已经被证明与复杂的人类疾病相关,包括阿尔茨海默氏病、乳腺癌、胃癌(GC)、精神疾病、肾细胞癌(RCC)和肝细胞癌(HCC)。因此,LncRNA可以作为疾病的生物标志物,在疾病的治疗和诊断中也有很大的潜力。尽管科学家们经过大量研究,基本上已经发现了LncRNA的形成和特征,但仍有几十种生物学功能尚不清楚,并且对LncRNA-疾病关联的研究高度依赖于生物实验,这是十分耗时和昂贵的。因此,迫切需要一种计算方法来预测LncRNA和疾病之间的潜在关联。同时,目前已经建立了许多的LncRNA数据库,这位研究LncRNA提供了很好的帮助。潜在的lncRNA-疾病关联的发现无疑对了解疾病发病机制和开发人类疾病的治疗方法的研究有很大的帮助。由于传统的生物实验费时费力,迫切需要高效可靠的计算预测方法。因此发展计算方法来揭示lncRNA与疾病的未知关联,不仅有利于了解lncRNA在人类疾病的病理和分子变化中的主要功能,也有助于复杂疾病的预后、治疗和预防。
近年来,人们提出了许多的计算方法来预测LncRNA和疾病之间的潜在关系,这些方法大致可以分为三类:基于机器学习的方法,基于矩阵补全的方法和基于随机游走的方法。
第一类基于机器学习的方法通常假设功能上相似的lncRNA会与相同的疾病或密切相关的疾病相关。但不幸的是,大多数机器学习方法严重依赖于已知的标签样本,这导致基于机器学习的算法在对阴性样本进行分类时总是面临困境,因为通常只有阳性lncRNA与疾病相关的报道,而阴性样本在实际情况下很难获得。而使用大量未知样本作为阴性样本可能会将潜在的lncRNA-疾病关联错误地划分为阴性样本,这将影响该方法的预测准确性。
第二类基于矩阵补全的方法主要思想是更新LncRNA-疾病邻接矩阵,恢复其缺失项,假设最终迭代结果中的元素与原始邻接矩阵中的元素尽可能接近,矩阵补全法能够捕捉lncRNA-疾病关联的整体模式,降低假阳性率,且不需要负样本。但LncRNA-疾病关联矩阵的稀疏性不利于这些方法的预测性能。
第三类方法基于随机游走的方法来挖掘lncRNA与疾病的关联。主要思想是根据关联矩阵以及相似性矩阵构建出异构网络,再在异构网络上记性随机游走方法来得出评分矩阵。与其他两种方法相比,随机游走能够捕捉lncRNA-疾病关联的整体模式,且不需要负样本。然而,现存的随机游走方法都没有处理假阴性数据影响,并且在随机游走的过程中选择邻居的时候不能选择最优的邻居节点,导致预测的结果不准确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310286302.9/2.html,转载请声明来源钻瓜专利网。