[发明专利]基于基因共表达网络传播分析的早期致病因子探测方法有效
申请号: | 201710566400.2 | 申请日: | 2017-07-12 |
公开(公告)号: | CN107463796B | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 郭澍;李大庆 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G16B25/00 | 分类号: | G16B25/00;G16B40/00;G16H50/50 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 王顺荣;唐爱华 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于基因共表达网络传播分析的早期致病因子探测方法,步骤如下:一、从某种疾病的病例组和对照组的真实基因表达中获取数据,对某种疾病的基因表达数据进行预处理;二、通过相关性分析,决定两个基因是否存在共表达关系,从而建立基因共表达网络;三、对基因的差异表达排序,找到故障节点集;四、计算故障节点子集与拟定故障传播中心的节点的平均距离,找到递增的平均距离序列,确定动态网络标志物;本发明针对复杂疾病的早期致病因子的探测问题,为弥补传统分子生物标志物和静态网络标志物的不足,从系统的角度提出一种基于网络传播分析的早期致病因子探测方法,可以有效的找到疾病的早期致病因子,为精准医疗做出贡献。 | ||
搜索关键词: | 基于 基因 表达 网络 传播 分析 早期 致病 因子 探测 方法 | ||
【主权项】:
1.一种基于基因共表达网络传播分析的早期致病因子探测方法,其特征在于:其步骤如下:步骤一、对某种疾病的基因表达数据进行预处理;对于一组基因表达数据,共有n个差异表达基因,m个时间测试点;对照组的基因表达记为ECG,i(t),i=1,2,...n,t=t1,t2,...,tm,病例组的基因表达记为EEG,i(t);系统在正常状态下基因的表达量并不为零,并且不同基因有着自己不同的基础表达量;在使用病例组的基因表达数据EEG,i(t)前,应该滤掉对照组的表达数据ECG,i(t),才能保证基因共表达网络的建立是有效的;基因表达数据多为以log2为底的数据,因此,病例组的基因表达数据减去对照组的表达数据即为差异表达数据Ei(t)=EEG,i(t)‑ECG,i(t);步骤二、通过相关性分析,决定两个基因是否存在共表达关系,从而建立基因共表达网络;差异表达序列Ei(t),反映了其在正常状态到疾病状态过程中基因表达的变化;将基因i与p的差异表达序列Ei(t),Ep(t)进行相关性分析,具体能使用皮尔逊即Pearson相关系数、互信息、斯皮尔曼即Spearman相关系数;其中,Pearson相关系数其中,E是数学期望,cov表示协方差,和是标准差;对每对基因进行相关性分析,从而得到整个网络的相关性系数的分布ρDIST;将每个差异表达序列Ei(t)中的m个元素随机交换位置,从而得到打乱的序列E″i(t);计算打乱差异表达序列E″i(t)和E″p(t)的相关性系数,其中i≠p,p=1,2,...,n;统计打乱差异序列的所有相关性系数,得到其分布信息ρ″DIST,当ρDIST的值为ρ″DIST值的100倍时,规定此时的相关性系数的值为阈值ρTH;若没有100倍显著点,选取10倍显著;根据阈值ρTH建立基因共表达网络:网络共n个基因,复数个基因即为一个节点,计算基因i与基因p的相关性系数ρip,若ρip>ρTH则在基因i与基因p之间连边;步骤三、对基因的差异表达排序,找到故障基因集;在某一时刻tj下,将步骤一所得的基因差异表达数据Ei(tj)从高到低进行排序,根据需求选取基因总数n的一预定比例的k个基因;这些基因的差异表达量大,是过表达基因,能视为基因共表达网络中发生故障的基因,称之为故障基因;并且,tj时刻选取的故障基因不应与tj‑1时刻故障基因重复;也就是说,如果tj时刻选取到的故障基因i在tj‑1时刻已经被认定为故障基因,那么在tj时刻不添加到故障基因子集Nj中,并且不参与计数;这k个故障基因组成的集合为时刻tj下的故障基因子集Nj;在所有时刻下进行此步骤,得到故障基因的全集N={Nj|j=1,2,...,m};步骤四、计算故障基因子集与拟定故障传播中心的平均距离,找到递增的平均距离序列,确定动态网络标志物;在基因共表达网络中,故障从初始的故障中心沿着各个方向向外扩散,这个中心为故障传播中心;为找到真正的故障传播中心,选择一个基因作为拟定故障传播中心nCAND进行试验,其中CAND=1,2,...,n;计算时刻tj下故障基因子集Nj中的故障基因到拟定故障传播中心nCAND的平均距离,即为:在所有时刻下重复上述步骤,得到一拟定故障传播中心nCAND对应的平均距离序列以所有基因作为拟定故障传播中心,共得到n个平均距离序列,表示为平均距离递增序列矩阵找到矩阵递增的行并对其递增序列的幅值进行排序,选取幅值最大的基因作为动态网络标志物。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710566400.2/,转载请声明来源钻瓜专利网。