[发明专利]一种基于复杂网络的肿瘤转移关键基因检索方法在审
申请号: | 202010004969.1 | 申请日: | 2020-01-03 |
公开(公告)号: | CN111192639A | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 杨天濠;徐晨曦;王子赫 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/00;G16B5/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 复杂 网络 肿瘤 转移 关键 基因 检索 方法 | ||
1.一种基于复杂网络的肿瘤转移关键基因检索方法,其特征即具体步骤如下:
S1,通过从STRING等在线数据库中获取蛋白质相互作用数据,构建PPI(protein-protein interaction)网络;
S2,根据已知的肿瘤转移类型(肿瘤A向肿瘤B转移),从不同数据库中分别收集和整理肿瘤A和肿瘤B的相关基因数据,其集合定义为Sa和Sb,并对基因数据进行预处理,使其对应在PPI网络中;
S3,将S2中得到的基因整合作为种子节点,在PPI网络上运行随机游走重启算法,得到网络中每个基因的概率得分,选择概率得分大于10-5的基因,称为RWR基因;
S4,通过置换检验删除p-value值大于0.1的基因,得到的基因称为候选基因;
S5,在PPI网络中选取S4中候选基因之间的相互作用,构建一个局部PPI网络,表示候选基因间的相互关系,并改变该网络的权重;
S6,在S5中的局部PPI网络上搜索Sa中所有基因到Sb中所有基因的最短路径;
S7,根据S6的结果,计算除种子节点外每个节点的介数中心性,选择介数中心性大于0.01的节点对应的基因,这些基因称为肿瘤转移关键基因;
S8,对S7中得到的肿瘤转移关键基因进行富集分析及文献挖掘验证。
2.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法,其特征在于,对于步骤S1,PPI(蛋白质-蛋白质相互作用)是指两个蛋白质分子通过非共价键形成蛋白质复合体的过程,PPI在细胞内和细胞间生化过程中起着重要作用,可用于遗传疾病的研究,其中蛋白质相互作用信息包含了蛋白质之间的物理和功能联系,可以更广泛地表达蛋白质之间的关系,研究证明,PPI中的两种蛋白更有可能具有类似的功能,因此,利用蛋白质相互作用信息构建PPI网络可以检索与肿瘤转移有关的关键基因,PPI网络中节点表示蛋白质,当两个蛋白质之间存在相互作用时,其对应节点之间存在一条连边,边权表示蛋白质之间的置信得分。
3.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法,其特征在于,对于步骤S2,将Sa和Sb中的基因整合并删去重复的基因,得到n个独特的基因作为随机游走算法的种子节点。
4.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法,其特征在于,对于步骤S3,随机游走重启算法是一种经典的排序算法,它从一些种子节点开始,模拟网络中节点的随机游走和重启,在算法的每一步中,节点都以相等的概率移动到其邻居节点,并以一定的概率返回种子节点,经过多次迭代后,算法的结果趋于稳定,根据概率得分对节点进行排名,随机游走重启算法的迭代公式如下:
Pi+1=(1-r)APi+rP0 (1)
其中P0为初始概率得分列向量,其种子节点对应的值的设置为1/n,其它节点对应值设置为0,其中Pi表示执行第i步后得到的概率得分列向量,A表示PPI网络的列归一化邻接矩阵,r为重启概率,以表示种子节点的重要程度,当‖Pi+1-Pi‖L110-6时,迭代结果趋于稳定,算法停止,并且输出Pi+1,算法的最终结果表示种子节点在网络中随机游走到其他节点的概率,体现了其他节点与种子节点的相关性,选择概率得分大于10-5的基因,称为RWR基因。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010004969.1/1.html,转载请声明来源钻瓜专利网。