[发明专利]基于水平关系的代谢组学网络标志物识别方法有效
申请号: | 201910489667.5 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110322930B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 林晓惠;苏本哲;黄鑫 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B5/20 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉;刘秋彤 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 水平 关系 代谢 网络 标志 识别 方法 | ||
本发明提供一种基于水平关系的代谢组学网络标志物识别方法,属于生物数据分析技术领域,用于筛选复杂疾病潜在网络标志物的代谢组学数据分析方法DNB‑HC。特征间的水平关系使用概率得分进行定义,用于衡量一对代谢特征在同一个样本中的相对表达水平的大小关系,通过随机扰乱测试确定水平关系的鲁棒性,从而确定网络连边。此外,本发明使用差异网络分析方法识别网络标志物,筛选出的网络代谢标志物具有较好的区分能力,能够为研究疾病发生发展机理及疾病的诊断提供切实有效的数据处理手段。
技术领域
本发明属于生物数据分析技术领域,采用特征水平关系构建网络,分析代谢组学数据,用于识别复杂疾病(如恶性肿瘤)潜在网络标志物。
背景技术
代谢组学是系统生物学的重要组成部分,其研究对象是相对分子质量1000以内的小分子物质。通过对生物体内的代谢物进行定性定量分析,能够挖掘代谢物在生理病理过程中的变化规律,反映机体当前的生理状态。相对于基因、蛋白质等生物分子,代谢物处于生命活动调控的末端,能够直接反映代谢过程中的生化活动,因此代谢组学已被广泛地应用于临床标志物的发现、疾病的早期诊断和治疗及药物研发等领域。恶性肿瘤具有侵袭性强、治愈率低、易复发易转移等特点,其研究已成为代谢组学最有价值的研究领域之一。
在生命机体中,生物分子相互关联、相互作用,共同完成各项复杂的生理功能。在疾病发生发展过程中,不仅代谢物的浓度会发生改变,代谢物间的关联关系同样会发生变化。此外,由于受到环境、饮食习惯和遗传因素等影响,不同个体代谢物的浓度会存在较大差异,通过研究代谢物相对表达水平的变化能够更精确地揭示疾病的致病机理。Topscoring pair(TSP)算法通过水平关系评价基因对,选择区分能力最强的基因对进行疾病样本的区分。TSP算法提供了一种简单的决策规则,但易受样本变化的扰动。
本发明从网络的角度分析代谢组学数据,通过水平关系衡量代谢物间的关联性,构建水平关系网络,识别能够用于疾病样本判别的潜在网络标志物。特征间的水平关系使用概率得分进行定义,通过比较一对代谢特征在同一个样本中相对表达水平的大小关系,并使用扰乱测试检测水平关系的鲁棒性,确定网络连边。此外,本发明使用差异网络分析方法寻找具有疾病判别能力的潜在网络标志物。
发明内容
本发明提供了一种基于水平关系网络的代谢组学数据分析方法,简称DNB-HC。DNB-HC在每一类样本上分别构建网络,采用差异网络分析技术寻找能够反映疾病发生发展的重要特征,筛选潜在网络标志物。该方法适用于复杂代谢组学数据的特征筛选,可以用于代谢组学数据分析、转化医学等领域。
本发明采用的技术方案如下:
基于水平关系的代谢组学网络标志物识别方法,步骤如下:
步骤一、获取数据来源
采集需要进行识别的代谢数据集,并将代谢数据集分为训练集和测试集;其中,将F={f1,f2,…,fm}定义为特征集合,m表示特征的个数;将C={ct|1≤t≤Nc}定义为类标集合,Nc表示类别数量;将S={s1,s2,…,sn}定义为样本集合,n表示样本的个数;在同一个样本中,一对特征fi和fj之间的水平关系分为两种情况,fifj和fi≥fj;
步骤二、利用DNB-HC方法在每一类样本上构建水平关系网络
(2.1)计算特征对fi,fj在第ct类样本上的水平关系,即概率得分St(fi,fj):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910489667.5/2.html,转载请声明来源钻瓜专利网。