[发明专利]基于多类型关系的生物网络模块标志物识别方法有效

专利信息
申请号: 201911219855.2 申请日: 2019-12-03
公开(公告)号: CN110890130B 公开(公告)日: 2022-09-20
发明(设计)人: 李佳林;林晓惠;王肖肖 申请(专利权)人: 大连理工大学
主分类号: G16B20/20 分类号: G16B20/20
代理公司: 大连理工大学专利中心 21200 代理人: 梅洪玉;刘秋彤
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 类型 关系 生物 网络 模块 标志 识别 方法
【权利要求书】:

1.基于多类型关系的生物网络模块标志物识别方法,其特征在于,步骤如下:

步骤一、获取数据

对于代谢组学分析:检测所研究问题的样本中的小分子代谢成分,所述小分子代谢成分的相对分子量为1000以下,并确定这些成分在不同样本中的含量;将各种成分看作变量,将成分的含量看作变量的值;

对于基因组学分析:测定不同样本中的microRNA或基因表达情况,将芯片上的各个信号看作变量,将信号强度数值看作变量的值;

对数据集进行抽象:数据集含有样本,每个样本根据其所处生理病理状态的不同将其划分为不同的类别;每个样本拥有变量,样本在变量上具有数值;

对数据集进行预处理:删除每类样本上缺失值数量均超过本类样本总数的百分之二十的变量,剩余变量的缺失值填补为同类样本在这个变量上的均值;将FS={f1,f2,…,fm}定义为变量集合,m表示变量的个数;将C={0,1}定义为类标集合,其中,0代表样本归属于0类,1代表样本归属于1类;将S={s1,s2,…,sn}定义为样本集合,n表示样本的个数;

步骤二、计算并筛选所有组合变量;

为了保证组合运算的有效性,对数据集的变量进行最大最小归一化,构成变量集

对于任意两个经过缩放的变量加法、减法、乘法、除法四种组合方式定义如公式(2)-(5):

按照公式(2)-(5)构建四种新组合变量通过单因素方差分析ANOVA技术,计算两类样本在四个新组合变量上的显著性差异p值,记为{pik+,pik-,pik×,pik÷},以此评价各个新组合变量的类间区分能力;

方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个,分别为组间差异,记作SSA;以及组内差异,记作SSE;组间差异SSA、组内差异SSE除以各自的自由度,得到其均方MSA和MSE;一种情况是处理没有作用,即各组样本均来自同一总体,MSA/MSE≈1;另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体,那么,MSAMSE;通过将MSA/MSE构成F分布,用F值与其临界值比较,推断各样本是否来自相同的总体,对某变量x进行单因素方差分析的公式如(6)-(10)所示:

其中,m为不同类别的组数,s为总样本数量,sd为第d组的样本数量,为第d组的均值,为所有样本的均值;xdw为第d组第w个样本的值;利用上述公式求出的F值,通过查询统计学表得到变量x在两类样本所代表的总体上均值相同的概率p,当p0.05时,则认为均值相同是小概率事件,认为其均值不同,换言之此变量对于区分两类样本具有重要意义;

方法中,p值越小者将被认定为类间区分能力越强;对于一对变量区分能力最强的组合变量将被认定为最佳组合变量,记作同时将相应的显著性p值记作pbestkindik,将区分能力最强的组合方式记为bestkind;将全体最佳组合变量构成的集合记为Fbest,对应的显著性p值构成的集合记为Pbest,即有集合

步骤三、网络构建与网络分析;

(3.1)构建生物网络;具体方式为:将变量集Fscaled中的变量看作生物网络中的结点,将Fbest中的组合变量看作用于计算组合变量的两个变量所对应结点的边,组合变量的类间显著性p值看作边的权重;当某条边权重大于等于0.05,则从网络中删除此边;经过筛选后,网络边集合、边权重集合与点集合分别为netEdge、netWeight、netNode,如公式(11)-(13)所示:

netNode=Fscaled (13)

(3.2)差异模块搜索;具体方式如下:

(3.2.1)模块扩张种子边选取;设构成模块的结点集为moduleNode,构成模块的边集为moduleEdge,初始moduleNode=φ,moduleEdge=φ;从构建的生物网络中选取权重最小的边,记为作为模块扩张的起点,加入到模块边集合moduleEdge中,并将构成边的结点加入到模块点集合moduleNode中,加入后,当前模块结点集合模块边集合由步骤二可知,此边对应的组合变量是边结点对应的两个变量的四种组合中区分能力最强的,同时也是所有保留下来的组合变量中区分能力最强的;使用当前边所代表的组合变量构建临时数据集,设该临时数据集变量集合为样本集合不变,仍为S={s1,s2,…,sn};

(3.2.2)模块搜索;当前模块分数记为moduleScore,初始moduleScore=0;

(3.2.2.1)所有与当前模块相连的边构成边候选集candiEdge,

(3.2.2.2)逐个尝试将边候选集candiEdge中的边加入到当前模块中,1≤pq≤n,则构成的临时数据集的变量集合变为样本集合为S={s1,s2,…,sn};将临时数据集进行十倍交叉验证划分,针对每一倍产生的训练数据训练线性核SVM分类器,并在此倍交叉验证对应的测试数据上测试,将预测结果与真实结果对比,计算出每一倍上测试结果的受试者工作曲线ROC的曲线下面积AUC,AUC值越高说明当前条件下分类器性能越好;对十倍交叉验证产生的共计十个AUC值求平均,作为此次加入的候选边的分数,记作scorep,q;删除临时数据集中加入的变量,恢复到加入之前的状态,即继续尝试加入边候选集candiEdge中下一个候选边,按照上述相同的方式计算此候选边的分数;重复上述过程,直至遍历完边候选集candiEdge,构成候选边分数集合SCORE={scorep,q|fpfbestkindq∈candiEdge};

(3.2.2.3)选取边候选集candiEdge中分数最高的边,记作其中,且scorebest1,best2=max(SCORE);

(A)若scorebest1,best2moduleScore,则将此边加入到当前模块中,更新当前模块边集合同时更新模块结点集合更新临时数据集的变量集合更新模块分数moduleScore=scorebest1,best2;重复步骤(3.2.2.1)-(3.2.2.3);

(B)若scorebest1,best2≤moduleScore,说明与当前模块相连的任意边均不能使得分类器性能有所提升,则停止模块更新,当前模块边集合moduleEdge以及模块点集合moduleNode为最终的识别结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911219855.2/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top