[发明专利]一种基于协同作用网络的生物组学数据分析方法有效
申请号: | 202010573023.7 | 申请日: | 2020-06-22 |
公开(公告)号: | CN111739582B | 公开(公告)日: | 2022-10-21 |
发明(设计)人: | 林晓惠;白嵩楠;张艳慧 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B40/00 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉;刘秋彤 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 协同 作用 网络 生物 数据 分析 方法 | ||
1.一种基于协同作用网络的生物组学数据分析方法,其特征在于,步骤如下:
将高通量测序技术所得的基因组学或转录组学数据中的基因序列视为特征,基因序列在不同样本上的表达值视为特征值;利用LC-MS或GC-MS技术得到代谢组学数据中的小分子代谢成分,将实验所得的小分子代谢成分视为特征,小分子代谢成分在不同样本上的含量视为特征值;
令F={f1,f2,…,fm}为原始特征集合,包含m个特征;X={x1,x2,…,xn}代表样本集合,n为样本总数;Y=(y1,y2,…,yn)为n个样本的类标向量,其中yd∈C={c1,c2},d∈{1,2,…,n},C为类标集合;
(1)计算特征fi与fj的信息增益得分IG(fi;fj;Y),1≤i≠j≤m,公式如下:
IG(fi;fj;Y)=I(fi,fj;Y)-I(fi;Y)-I(fj;Y) (1)
其中I(fi,fj;Y)表示特征fi、fj与类标向量Y的联合互信息大小,I(fi;Y)、I(fj;Y)为特征fi、fj与类标向量Y的互信息;IG(fi;fj;Y)反映fi(fj)与类别Y的依赖关系由于fj(fi)的加入所发生的变化;若IG(fi;fj;Y)0,则表示特征fi与fj联合所提供关于Y的信息量比它们各自与Y的信息量之和大,进而认为fi与fj具有协同作用;
(2)获得具有显著性的信息增益得分;
当信息增益得分接近于零时,需确定具有显著性交互增益的特征对;对此保留步骤(1)大于零的信息增益值,并对其升序排列,得到IG+={p1,p2,…,pt},p1≤p2,…,≤pt,利用公式(2)计算组距:
再计算序列IG+中相邻两个变量的差值{p2-p1,p3-p2,…,pt-pt-1},只保留结果大于θ1的差值变量,并对其求平均值记为θ2,将满足条件的最小下标为i0所对应的值设定为边的阈值,如果表明fi与fj具有较强的协同作用,IG值越大表明协同作用越强,因此在具有较强协同作用的特征对之间构建连边,此时网络中的节点代表特征,边的权值即为IG值;
(3)在所构建的协同作用网络上进行模块搜索;
由上述步骤(2)所得的协同作用网络,执行模块搜索的过程,过程如下:
(3.1)初始化:特征模块集合特征模块子集互信息集合候选节点集合
(3.2)计算每个特征与类标向量的互信息,加入集合MIList;
(3.3)取MIList中互信息最大的点作为初始种子节点,加入到特征模块子集S中,并计算此时模块受试工作特征曲线ROC下的面积AUC值大小;
(3.4)定义候选节点集合CS=Adj(S)-S,其中Adj(S)为当前特征模块子集S内所含节点在网络中的邻接点集,若当前特征模块子集S的候选集合为空集,则该模块搜索结束,继续向下执行步骤(3.5);若候选集合不为空,则计算候选集合内的每个候选节点得分,公式为:
其中分别表示点fi、fj在网络中的一近邻节点集,则代表点fi与fj属于S相同的一近邻节点数量,|S|代表当前模块中节点个数,与|S|相除表示fi与fj属于S相同的一近邻节点数量占当前模块节点总数的比例,若该比例越大且fi与fj构成的连边权值越大,则表明fi与fj连接越紧密,从而有效的衡量了候选节点与当前模块中节点连接的紧密程度;MIi为特征fi的互信息值,代表特征自身的分类性能,因此公式(3)将网络拓扑结构与特征自身分类性能相结合,综合衡量了每一个候选节点的重要性,得分越高表明该节点越重要,进而每次尝试将综合得分最高的节点加入到当前特征模块子集S中,检查模块的AUC值是否增加,若增加,则将该点加入到S中,继续重复步骤(3.4)的搜索过程,直至模块AUC值不再增加为止,此时该模块搜索结束,继续向下执行步骤(3.5);
(3.5)S即作为本次搜索所得到的模块加入到特征模块集合MS中,从MIList中删除S所包含的特征,并从网络中删除S所包含的特征及其中的连边,以保证每个特征属于且仅属于一个特征模块,将S置空;
(3.6)重复上述步骤(3.3)-(3.5)的搜索过程,直至网络中节点数量为空,此时所有模块搜索结束;
(4)根据特征模块集合MS,确定最终的模块标志物;
对步骤(3)集合MS中所得模块,根据AUC值降序排列且只保留AUC值大于等于0.7的模块,利用内部交叉验证的方式,计算每加入一个新模块后已选集合的准确率,选择准确率最高的模块集合作为最终所确定的模块标志物。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010573023.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:监控方法、装置、设备及存储介质
- 下一篇:智能柜台业务信息审核方法及装置