[发明专利]一种基于多目标优化的疾病模块检测方法有效
申请号: | 201810946395.2 | 申请日: | 2018-08-20 |
公开(公告)号: | CN109390057B | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 苏延森;苏晓春;张兴义 | 申请(专利权)人: | 安徽大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06N5/02 |
代理公司: | 合肥市长远专利代理事务所(普通合伙) 34119 | 代理人: | 傅磊 |
地址: | 230000 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多目标 优化 疾病 模块 检测 方法 | ||
1.一种基于多目标优化的疾病模块检测方法,其特征在于,包括:
S1、结合基因表达数据和蛋白质—蛋白质相互作用数据构造综合PPI网络;
S2、将综合PPI网络中疾病模块的检测问题转换为疾病模块多目标优化问题;
S3、对疾病模块多目标优化问题进行问题优化,得到疾病模块集合;
S4、计算疾病模块集合中各疾病模块的分数,并根据各疾病模块的分数从疾病模块集合中选择目标疾病模块;
所述的基于多目标优化的疾病模块检测方法,步骤S1,具体包括:
S11、获取基因表达数据中的正常样本,根据基因在正常样本中的表达值计算各个基因间的person相关系数取绝对值,记为PCCn,其中,n为所用正常样本的个数,作为基因间的边权,与PPI网络数据对照,仅保留存在于PPI网络数据中的边,得到参考网络;
S12、在正常样本数据中加入一个疾病样本构成新的样本数据,计算各样本间基因的person相关系数取绝对值,记为PCCn+1,其中n+1为所用样本个数,作为基因间的边权,与PPI网络数据对照,仅保留存在于PPI网络数据中的边,得到疾病样本对应的扰动网络;
S13、重复执行步骤S12,直到所有疾病样本都得到对应的扰动网络;
S14、将各个疾病样本对应的扰动网络分别与参考网络做差,对应边权相减取绝对值即ΔPCCn=|PCCn+1-PCCn|,利用z-检验计算ΔPCC的显著性值其中,设定阈值p-value<0.05,得到各疾病样本对应的个体特异性差网络;
S15、将个体特异性差网络结合成综合PPI网络,统计每条边在所有个体特异性差网络中出现的概率pij、平均权值avg(ΔPCCij),计算最终综合PPI网络的边权值wij=pij*avg(ΔPCCij),将PPI网络表征为G=(V,W),V={v1,v2,…,vi,…,vm}表示所述网络中基因的集合,vi表示第i个基因,m为基因的总数,W={wij|i=1,2,…,m;j=1,2,…,m}表示任意两个基因之间的相互作用的集合,wij表示第i个基因vi与第j个基因vj之间的相互作用,其值表示疾病样本中基因的突变对参考网络中基因间相互作用的扰动程度,若wij=0表示基因vi与基因vj之间无边相连,即疾病样本未对该基因间的相互作用产生显著扰动;
所述的基于多目标优化的疾病模块检测方法,步骤S2,具体包括:
将综合PPI网络中疾病模块的检测问题转换为疾病模块多目标优化问题:min(f1(x),f2(x)),s.t.x=(vij,wij),vij∈V,wij∈W,其中f1(x)表示疾病样本对正常样本的扰动程度,且f1(x)=max∑i<jwijvivj+min∑i<jwijvivj-∑i<jwijvivj,max∑i<jwijvivj表示当前进化种群中权值和最大的个体所对应的权值和,min∑i<jwijvivj表示当前进化种群中权值和最小的个体所对应的权值和,∑i<jwijvivj表示所要计算的当前个体所对应的权值和,f2(x)表示疾病模块的稀疏程度,且||V||0表示当前个体包含的基因数,∑i<jvivj表示当前个体包含的边数;
所述的基于多目标优化的疾病模块检测方法,步骤S3,具体包括:
S301、根据构造的综合PPI网络G中所有基因数目,采用二进制编码方式对网络G中基因位进行编码,疾病模块表示为X={v1,v2,…vi,…vm},vi表示疾病模块X中第i个基因位,若vi=1表示疾病模块X中第i个基因被选择,若vi=0表示疾病模块X中未选择第i个基因;
S302、定义最大迭代次数为max gen,初始化迭代次数t=1,种群个体的数目为pop,个体长度为k;
S303、分别计算G中各基因的节点度D={d1,d2,…di,…dm}和节点介数B={b1,b2,…bi,…bm},其中,di表示G中基因i的节点度,bi表示G中基因i的节点介数,分别依据节点度和节点介数对G中的基因进行排序,分别从两个序列中选取排名前1%的基因形成并集M={m1,m2,…mi,…mk},其中mi表示集合M中的第i个基因,k表示集合M中基因总数;
S304、随机产生一个1~m之间的整数u作为个体选择的基因数,使用二元联赛选择方法从集合M中随机选取两个基因,以0.5的概率随机选择节点度或节点介数作为依据选择一个基因位置1;
S305、重复执行步骤S304,直至个体中选择了u个基因;
S306、重复执行pop次步骤S304、S305,得到pop个个体;
S307、采用锦标赛选择策略对种群进行选择,得到交配池,作为第t次迭代的种群;
S308、从交配池中选取两个个体记为p1,p2,由p1-p2得存在于父代个体p1而不存在于父代个体p2的基因位作为待减基因位集合,由p2-p1得存在于父代个体p2而不存在于父代个体p1的基因位作为待加基因位集合,以0.5的概率随机选择对父代个体p1进行加操作或减操作,在确定执行加或减操作之后,再以0.5的概率随机选择节点度或节点介数作为依据对待加或减基因位进行降序排序,从排名前一半的基因位中随机选取若干个基因位对父代个体p1进行加或减操作,即置1或0;
S309、重复执行步骤S308,直到交配池中的个体选取完毕;
S310、对每个个体pi,由个体pi所有基因位形成待减基因位集合,由个体pi基因位的邻居基因位集合形成待加基因位集合,以0.5的概率选择对个体pi进行加或减操作,在确定执行加或减操作之后,对待加或减基因位集合计算各个基因位与个体pi所有基因位集合的边数,并依据边数进行降或升序排序,选择排名第一位的基因位对个体pi进行加或减操作,即置1或0,产生第t+1次迭代的种群;
S311、遍历种群个体,通过min(f1(x),f2(x)),s.t.x=(vij,wij),vij∈V,wij∈W计算得到第t+1迭代的种群中的所有个体的相应目标函数值;
S312、利用非支配排序对所述第t+1次迭代的种群进行排序,得到排序后的第t+1次迭代的具有多个前沿面的种群;
S313、计算排序后的第t+1次迭代的具有多个前沿面的种群的拥挤距离,并根据拥挤距离对其进行降序排序,得到根据拥挤距离降序排序后的第t+1次迭代的具有多个前沿面的种群;
S314、令t=t+1,并重复执行步骤S303-S313,直至达到执行次数达到max gen,得到疾病模块集合;
所述的基于多目标优化的疾病模块检测方法,步骤S4,具体包括:
计算疾病模块集合中各疾病模块的分数
其中,表示G中权值和的样本均值,表示G中权值和的标准偏差,对疾病模块集合中各疾病模块的分数进行降序排序,选择排名第一的个体作为目标疾病模块并输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810946395.2/1.html,转载请声明来源钻瓜专利网。