[发明专利]基于水平关系的代谢组学网络标志物识别方法有效
申请号: | 201910489667.5 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110322930B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 林晓惠;苏本哲;黄鑫 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B5/20 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉;刘秋彤 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于水平关系的代谢组学网络标志物识别方法,属于生物数据分析技术领域,用于筛选复杂疾病潜在网络标志物的代谢组学数据分析方法DNB‑HC。特征间的水平关系使用概率得分进行定义,用于衡量一对代谢特征在同一个样本中的相对表达水平的大小关系,通过随机扰乱测试确定水平关系的鲁棒性,从而确定网络连边。此外,本发明使用差异网络分析方法识别网络标志物,筛选出的网络代谢标志物具有较好的区分能力,能够为研究疾病发生发展机理及疾病的诊断提供切实有效的数据处理手段。 | ||
搜索关键词: | 基于 水平 关系 代谢 网络 标志 识别 方法 | ||
【主权项】:
1.基于水平关系的代谢组学网络标志物识别方法,其特征在于,步骤如下:步骤一、获取数据来源采集需要进行识别的代谢数据集,其中,将F={f1,f2,…,fm}定义为特征集合,m表示特征的个数;将C={ct|1≤t≤Nc}定义为类标集合,Nc表示类别数量;将S={s1,s2,…,sn}定义为样本集合,n表示样本的个数;在同一个样本中,一对特征fi和fj之间的水平关系分为两种情况,fi<fj和fi≥fj;步骤二、利用DNB‑HC方法在代谢数据集的每一类样本上构建水平关系网络(2.1)计算特征对<fi,fj>在第ct类样本上的水平关系,即概率得分St(fi,fj):
公式(1)中,Pt(fi<fj)表示在ct类样本中fi<fj的概率,Pt(fi≥fj)表示fi≥fj的概率;St(fi,fj)>0说明特征fi的值在多于一半的ct类样本上小于特征fj的值;St(fi,fj)<0说明特征fi的值在多于一半的ct类样本上大于或等于特征fj的值;|St(fi,fj)|的大小说明特征fi和fj在ct类样本中具有相同的水平的多少;(2.2)在DNB‑HC方法中执行num次随机扰乱测试;每次扰乱测试中,将特征fi和fj的表达值进行随机重排列,计算新概率得分S’t(fi,fj);当S’t(fi,fj)>St(fi,fj)>0或S’t(fi,fj)<St(fi,fj)<0时,表明特征对<fi,fj>间的水平关系是弱的;经过num次随机扰乱后,使用公式(2)来计算随机扰乱测试的p‑valueijt值:p‑valueijt=countijt/num (2)公式(2)中,countijt表示在ct类样本上特征对<fi,fj>之间为弱关系的频次当p‑valueijt小于阈值α时,则特征对<fi,fj>间的水平关系是可靠的;(2.3)当St(fi,fj)大于或等于阈值ε并且p‑valueijt值小于阈值α,则ct类数据子集所对应的网络中特征fi和fj之间存在一条fi指向fj的有向边;当St(fi,fj)的值小于或等于阈值‑ε并且p‑valueijt值小于阈值α,则ct类数据子集所对应网络中存在一条fj指向fi有向边;特征对<fi,fj>之间连边的权重即为St(fi,fj);(2.4)计算所有特征对的概率得分和p‑value值,建成水平关系网络;步骤三、网络分析令Gt表示在样本组st上构建的网络,当Gt中的任意一条边e,在大部分其他样本组的网络Gp(1≤t≠p≤Nc)中有不同的表现行为时,则称e为Gt的一条“差异边”;Gt的所有的“差异边”构成其差异子网,记作SGt;SGt中边的权重定义为该边在Gt和Gp中对应边权重差值绝对值的平均值;差异子网SGt中的边反映了特征水平关系在Gt与Gp之间具有明显且健壮的变化,从而利用SGt区分st类样本和其他类别样本;将SGt中的节点按照度降序排序,选取由度最大的节点及其一近邻节点所构成的星型图作为网络标志物。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910489667.5/,转载请声明来源钻瓜专利网。