[发明专利]一种基于快速网络嵌入的疾病基因预测方法有效
申请号: | 202010356861.9 | 申请日: | 2020-04-29 |
公开(公告)号: | CN111540405B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 张宁芮;项炬;李敏;吕小毅;陈晨;严紫薇;陈程 | 申请(专利权)人: | 新疆大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B40/30;G06N20/00 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 孟阿妮;张小勇 |
地址: | 830000 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 快速 网络 嵌入 疾病 基因 预测 方法 | ||
本发明公开了疾病基因预测技术领域,具体领域为一种基于快速网络嵌入的疾病基因预测方法,可以更有效地利用多种关联数据中的信息来预测疾病相关基因。其方法由四部分组成:(1)利用疾病‑基因、疾病‑表型、蛋白质‑蛋白质、基因‑GO关联等多种类型的关联数据构建异构网络;(2)采用快速网络嵌入方法提取疾病和基因的低维矢量表示;(3)使用低维矢量表示构建由疾病和基因组成的双层异构网络;(4)将异构网络传播应用于网络预测疾病相关基因。本方法有提高疾病基因预测能力方面的重要作用,并通过与最新算法的比较验证了本方法的优越性能。
技术领域
本发明涉及疾病基因预测技术领域,具体领域为一种基于快速网络嵌入的疾病基因预测方法。
背景技术
识别疾病相关基因对于复杂疾病的预防、诊断和治疗至关重要。传统的方法如连锁分析和全基因组关联研究对于系统地发现疾病相关基因是有用的。然而,这些方法通常提供包含数百个基因的候选列表,需要昂贵且耗时的实验识别候选列表中的真实疾病相关基因。因此,在过去的几十年里,人们提出了各种计算方法来预测疾病相关基因。基于网络的方法是预测疾病相关基因最常用的方法之一。随着蛋白质-蛋白质相互作用数据的积累,蛋白质-蛋白质相互作用网络作为蛋白质/基因的同质网络,被广泛应用于各种疾病-基因预测方法中,如随机游走重启(RWR)和扩散核(DK);与表型相同或相似的疾病相关的基因通常被认为是功能相关的,而蛋白质/基因之间的功能相关性已经在已知的蛋白质-蛋白质相互作用网络中(部分)编码,并且与疾病相关的基因往往聚集在网络的附近,因此,基于蛋白质-蛋白质相互作用网络的疾病-基因预测方法理论上在很多情况下都应表现良好,特别是对于具有相当数量已知疾病基因的疾病。然而,实际情况并非如此,特别是在目前的蛋白质网络仍然不完整的情况下。基于此种情况,现提出一种充分利用多源生物信息来提高疾病-基因预测的方法。
发明内容
本发明的目的在于提供一种基于快速网络嵌入的疾病基因预测方法,以解决上述背景技术中提到的问题。
为实现上述目的,本发明提供如下技术方案:一种基于快速网络嵌入的疾病基因预测方法,其方法包括以下步骤:
步骤1:异构网络构建
利用与疾病和基因相关的多源关联数据构建异构网络,通过集成四种类型的关联数据来构建异构网络,其中四种类型的关联数据包括疾病-基因、疾病-表型、蛋白质-蛋白质和基因-GO关联;
步骤2:快速网络嵌入
为从异构网络中提取对疾病基因预测有帮助的信息,采用快速网络嵌入迭代随机投影网络嵌入来学习网络中节点的低维向量表示,在快速网络嵌入算法中,网络嵌入时需要保持高阶邻接关系,将N个节点的网络邻接矩阵A的目标相似度函数Φ(A)∈Rn×n定义为网络邻接矩阵的多项式函数,假设Φ(A)是一个正的半定函数,它可以表示为:
Φ(A)=S·ST,
其中S=α0I+α1A1+α2A2+…+αpAp;α0,α1,α2,…,αp是预定义的权重,并且p是阶数;然后将目标相似度函数Φ(A)∈Rn×n分解为两个低维矩阵U,V∈Rn×d的乘积,优化的目标函数为其中n为节点数,d为嵌入维数,对于无向网络,A是对称矩阵,U=V,目标函数可以重写为:
为使目标函数最小,采用高斯随机投影法,通过此方法可以得到嵌入U,
U=S·Q=(α0I+α1A+α2A2+...+αpAp)Q,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010356861.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种摄像模组、电子设备及摄像方法
- 下一篇:一种电解次亚酸消毒水的生产装置