[发明专利]采用果蝇优化方法识别蛋白质复合物有效
申请号: | 201610178586.X | 申请日: | 2016-03-25 |
公开(公告)号: | CN105868582B | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 雷秀娟;丁玉连;吴振强;裘国永 | 申请(专利权)人: | 陕西师范大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00 |
代理公司: | 西安永生专利代理有限责任公司 61201 | 代理人: | 申忠才 |
地址: | 710062 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种采用果蝇优化方法识别蛋白质复合物,由如下步骤组成:将蛋白质相互作用网络转化为无向图、对蛋白质相互作用网络边和结点预处理、构建动态蛋白质相互作用网络、设置参数、形成果蝇的位置、对应果蝇到蛋白质相互作用的网络中、确定初始化果蝇位置、确定果蝇气味浓度、更新果蝇位置、产生蛋白质复合物、过滤蛋白质复合物。该方法考虑了蛋白质网络的动态性、蛋白质复合物内部核心‐附件结构以及蛋白质相互作用网络的局部性和全局性,能准确地识别蛋白质复合物。仿真实验结果表明,正确率、查全率等指标性能较优。与其他聚类方法相比,结合蛋白质网络和蛋白质复合物特性,实现蛋白质复合物识别过程,提高了蛋白质复合物的识别准确率。 | ||
搜索关键词: | 采用 果蝇 优化 方法 识别 蛋白质 复合物 | ||
【主权项】:
1.一种采用果蝇优化识别蛋白质复合物的方法,其特征在于,它是由下述步骤组成:(1)将蛋白质相互作用网络转化为无向图将蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={vi,i=1,2,…,n}为结点vi的集合,E为边的集合,结点vi表示蛋白质,边表示蛋白质之间的相互作用,wij表示结点vi与结点vj之间的连接情况,若结点vi与结点vj相连,则wij=1,若vi与vj之间没有边,则wij=0,i=1,2,…,n,j=1,2,…,n;(2)对蛋白质相互作用网络边和结点的预处理对结点vi预处理:计算结点vi的聚集系数和度,度是与结点vi相邻的结点的个数,按式(1)计算结点vi的聚集系数:式中kv是点vi的度,nv是点vi的kv个邻居结点间的边的个数;按式(2)计算边的聚集系数:式中,Z(vi,vj)表示包含边(vi,vj)的三角形个数,di,dj分别是点vi,vj的度;按式(3)计算边的皮尔森相关系数:式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;(3)构建动态蛋白质相互作用网络将蛋白质相互作用网络分为稳定关系部分和动态关系部分:稳定关系部分:对于蛋白质相互作用网络中的每一条边eij计算其皮尔森相关系数,若边的皮尔森相关系数大于阈值th1=0.3,则边eij被认为是稳定边,边所连接的两个结点被认为是稳定结点V_stab;用一个N×N的矩阵S来保存蛋白质相互作用网络的稳定关系,如果蛋白质vi和蛋白质vj有稳定的相互作用关系,Sij=1,否则Sij=0;动态关系部分:在时间点t时,蛋白质vi的基因表达值GEit若大于基因表达阈值AT(i),则被认为蛋白质vi在时间点t具有活性;若边eij∈E,GEit≥AT(i),GEjt≥AT(j)且Sij=0,则边eij为临时边,对应的蛋白质为动态蛋白质;通过上述处理,在每个时间点t的动态网络是一个包含稳定蛋白质和在时间点t处为活性的动态蛋白质的子网;(4)设置参数令iter,maxiter分别表示当前迭代次数和最大迭代次数,iter=1,matxiter∈[100,800];t,T分别表示当前的时间点和最大时间点,t=1;V_stab表示稳定结点,V_temp表示动态结点;N_core表示核心簇的计数器,N_core=0;count,maxcount分别表示对稳定蛋白质遍历时当前的迭代次数和最大迭代次数,count=1,maxcount=V_stab的数量;核心簇的密度阈值th_core=0.7;重叠度阈值为th_os;cluster是最终聚出来的蛋白质复合物;(5)形成果蝇的位置对V_stab中的结点先按照点的聚集系数和度进行降序排序;当前的迭代次数count<最大迭代次数maxcount时,选取第count个结点Vi,若未被访问时,标记为被访问,结点Vi与其V_stab中的邻居结点形成一个核心簇corei,按密度计算公式计算核心簇corei的密度;若密度小于阈值th_core,不断将簇中与Vi相连拥有最小边的聚集系数的点去掉,直至core的密度大于等于th_core的值;将core中与Vi相连的点标记为visited=1;count=count+1,N_core=N_core+1;循环对V_stab中的点进行访问,直到所有的点都被访问,形成了N_core个核心簇;(6)对应果蝇到蛋白质相互作用的网络中将时间点t时对应网络动态结点中的每一个结点作为一只果蝇;(7)确定初始化果蝇位置随机产生核心簇的序列号,即一只果蝇随机产生一个1…N_core的序列号,作为初始化果蝇位置X(i),初始化果蝇的当前最好位置gbesti为当前位置X(i);(8)确定果蝇气味浓度按照Smell(i)=clossness(vi,core(X(i)))确定果蝇气味浓度,式中Smell(i)为果蝇i的气味浓度,vi是果蝇所代表的动态蛋白质结点,core(X(i))是果蝇当前所在位置所代表的核心簇,clossness表示vi与core(X(i))的紧密程度;(9)更新果蝇位置更新当前位置为X(i)+randomx,randomx作为一个随机产生的1~N_core之间的整数;计算更新位置后的果蝇气味浓度Smell(i),若当前位置的气味浓度大于果蝇在最佳位置的气味浓度,更新果蝇的当前最佳位置gbesti为当前位置,否则不更新最佳位置;iter=iter+1,若iter≦maxiter,重复步骤(9),否则转向下一步;(10)产生蛋白质复合物将每只果蝇最优位置的气味浓度作为最佳气味浓度,若最佳气味浓度大于0,则将这只果蝇代表的动态蛋白质并入到其最佳位置所代表的核心簇中;若最佳气味浓度等于0,则这只果蝇所代表的动态蛋白质被认为是噪音蛋白质;处理完所有果蝇,得到时间点t处的蛋白质复合物t=t+1,若t≦T,返回步骤(6),否则转向步骤(11);(11)过滤蛋白质复合物确定所有时间点产生的蛋白质复合物之间的重叠度OS,合并重叠度大于重叠度阈值th_os的蛋白质复合物,删除只有一个蛋白质的复合物,输出所有的蛋白质复合物cluster。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西师范大学,未经陕西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610178586.X/,转载请声明来源钻瓜专利网。