[发明专利]一种基于结构预测的基因调控网络构建方法有效
申请号: | 201910875164.1 | 申请日: | 2019-09-17 |
公开(公告)号: | CN110675912B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 王之琼;郭上慧;曲路渲;信俊昌;钱唯 | 申请(专利权)人: | 东北大学 |
主分类号: | G16B5/20 | 分类号: | G16B5/20;G16B25/00 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 结构 预测 基因 调控 网络 构建 方法 | ||
1.一种基于结构预测的基因调控网络构建方法,其特征在于,包括以下步骤:
步骤1:计算系数矩阵,通过计算基因之间的Pearson系数、互信息及最大互信息来确定基因之间的相关性,作为筛选潜在父节点集的依据;
步骤2:结构预测,利用步骤1中获得的基因之间的系数矩阵,作为判定基因潜在父节点集的依据,为每个基因选取潜在父节点集;
步骤3:结构学习,采用基于评分搜索的结构学习方法,评分函数选择BDe分数,并设置每个基因的调控集合的个数为K,对于基因xi,以潜在父节点集Pi为搜索空间,遍历所述搜索空间内的基因可能组成的集合,对每一个所述集合计算BDe分数score,根据分数高低评判所述集合作为基因xi的父节点集的优劣;
步骤4:局部网络合并,每个基因对应一个局部网络Gi,将[G1,……,Gn]合并成全局网络G[[x1,G1],[x2,G2],…,[xn,Gn]],设基因y∈Gi,则基因xi和基因y间的存在调控关系表示为y→xi;
步骤5:参数学习,对于所述全局网络G中的每一条调控关系进行参数学习,所述参数包括调控作用和调控概率,所述调控作用表示为激励或抑制,所述调控概率表示调控基因与靶基因的后验概率。
2.根据权利要求1所述的一种基于结构预测的基因调控网络构建方法,其特征在于,所述的步骤1计算系数矩阵,通过计算基因之间的Pearson系数、互信息及最大互信息来确定基因之间的相关性,作为筛选潜在父节点集的依据,具体步骤如下:
步骤1.1:将基因表达数据表示为一个矩阵X(m*n),m表示基因表达数据的样本数,n为基因总数,所述矩阵X(m*n)的每一行为一个基因的表达数据向量,具体表述为第i个基因的表达数据向量表示为Xi,定义3个系数矩阵MPearson(n*n)用于存放基因之间的Pearson系数的计算结果,定义Mmi(n*n)用于存放互信息的计算结果,定义MMIC(n*n)用于存放最大互信息的计算结果;
步骤1.2:由于Pearson系数、互信息和最大互信息三种方法都具有对称性的属性,因此在计算所述3个系数矩阵时只需计算上三角矩阵,利用公式(1)计算基因xi的表达数据向量Xi与基因xi+1,xi+2,…,xn的表达数据向量Xi+1,Xi+2,…Xn的皮尔逊系数,将计算得到的皮尔逊系数存放到MPearson(n*n)中,具体为MPearson[i,i+1],MPearson[i,i+2],……,MPearson[i,n],同时将计算得到的皮尔逊系数复制到对应的下三角,具体为MPearson[i+1,i],MPearson[i+2,i],……,MPearson[n,i],最终得到MPearson的整个矩阵表达式;
式中,r(Xi,Y)表示基因xi的表达数据向量Xi和基因y的表达数据向量Y的皮尔逊系数,基因y∈{xi+1,xi+2,…,xn},Xip表示基因xi的表达数据向量Xi的第p个样本表达值,Yjp表示基因y的表达数据向量Y的第p个样本表达值,表示基因xi的表达数据向量Xi的样本平均值,表示基因y的表达数据向量Y的样本平均值,m表示基因表达数据的样本数;
步骤1.3:利用公式(2)计算基因xi的表达数据向量Xi与基因xi+1,xi+2,…,xn的表达数据向量Xi+1,Xi+2,…Xn的互信息的值,将计算得到的互信息值存放到Mmi(n*n)中,具体为Mmi[i,i+1],Mmi[i,i+2],……,Mmi[i,n],同时将计算得到的互信息值复制到对应的下三角,具体为Mmi[i+1,i],Mmi[i+2,i],……,Mmi[n,i],最终得到Mmi的整个矩阵表达式,
式中,I(Xi,Y)表示基因xi的表达数据向量Xi和基因y的表达数据向量Y的互信息值,基因y∈{xi+1,xi+2,…,xn},|C(Xi)|表示基因xi的表达数据向量Xi的协方差矩阵的行列式的值,|C(Y)|表示基因y的表达数据向量Y的协方差矩阵的行列式的值,|C(Xi,Y)|表示向量Xi和向量Y的协方差矩阵的行列式;
步骤1.4:利用公式(3)计算基因xi的表达数据向量Xi与基因xi+1,xi+2,…,xn的表达数据向量Xi+1,Xi+2,…Xn的最大互信息的值,将计算得到的最大互信息值存放到MMIC(n*n)中,即MMIC[i,i+1],MMIC[i,i+2],……,MMIC[i,n],同时将计算得到的最大互信息值复制到对应的下三角,具体为MMIC[i+1,i],MMIC[i+2,i],……,MMIC[n,i],最终得到MMIC的整个矩阵表达式,
式中,mic(Xi,Y)表示基因xi的表达数据向量Xi和基因y的表达数据向量Y的最大互信息值,基因y∈{xi+1,xi+2,…,xn},I(Xi,Y)表示所述基因xi的表达数据向量Xi和基因y的表达数据向量Y的互信息值,a表示坐标轴X轴方向上的网格化的大小,b表示坐标轴Y轴方向上的网格化的大小,参数B取值为B=m0.6,其中m表示基因表达数据的样本数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910875164.1/1.html,转载请声明来源钻瓜专利网。