[发明专利]一种基于双阶遗传计算的基因表达数据的双聚类方法有效
申请号: | 201510008985.7 | 申请日: | 2015-01-06 |
公开(公告)号: | CN104573004B | 公开(公告)日: | 2017-11-07 |
发明(设计)人: | 黄庆华;杨杰;黄仙海 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F19/20 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 罗观祥 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遗传 计算 基因 表达 数据 双聚类 算法 | ||
1.一种基于双阶遗传计算的基因表达数据的双聚类方法,其特征在于,包含以下顺序的步骤:
1)设基因表达数据矩阵为M,行数为m,列数为n,即基因表达数据矩阵的大小为m×n,将原始的数据矩阵M的每一行减去第k行,得到处理之后的矩阵M(k),k=1,2,…,n;
2)对处理之后的矩阵M(k)中除了第k列之外的每一列,使用距离阈值为cof的层次聚类,得到每一列的双聚类种子,然后将所有得到的双聚类种子全部放入一个名为Bic_Set的集合;
3)从Bic_Set的集合中选取一个双聚类种子,对未包含其中的行列进行编码;设遗传算法的迭代次数为ui,其中i=1,2,…,t;将未包含的行列作为搜索空间,每个行和列作为一个个体,随机选择Ni行和Nj列,令N1=Ni+Nj,即随机选择N1个个体,构成了初始化的种群P1(u1);将选中的行和列的位置记为1,没有选中的行和列的位置记为0,则得到初始化的种群P1(u1)的编码;
4)将初始化的种群P1(u1)的N1个个体分别独立的加进双聚类种子中,得到N2个已扩大的双聚类,其中N1=N2,每个双聚类作为一个个体,由N2个个体构成初始化的种群P2(u1),然后对每个双聚类进行二进制编码,编码的长度为m+n,前m位用于行编码,后n位用于列编码,将双聚类中包含的行和列对应的位置置为1;经过以上步骤就得到初始化的种群P2(u1)中双聚类的编码;至此,得到了初始化的种群P1(u1)和初始化的种群P2(u1);
5)接着使用适应度函数Fitness1(p)评价初始化的种群P1(u1)中每个个体的适应度,设变异概率为β;从N1个个体中选择(1-β)×N1个适应度高的个体,将其遗传到下一代种群中,然后将β×N1个适应度低的个体进行变异,得到新的β×N1个体,即重新随机选取β×N1个新的行或者列;然后将变异得到的新的个体也加入下一代种群中,由此得到种群P1(u2)中新的N1个个体,其中适应度函数为Fitness1(p)=Bicluster.Msr-Bicluster.Msr(p),Bicluster.Msr是种群P1中第p个个体对应产生的种群p2中的双聚类的平均平方残基,Bicluster.Msr(p)是去掉第p行或者第p列之后的双聚类的平均平方残基;至此,新一代的种群P1(u2)的遗传进化完成;
6)然后使用适应度函数Fitness2(Bicluster)评价种群P2(u1)中的N2个个体的适应度,从中选取适应度高的g个个体遗传到下一代,将种群P2(u1)中其余的适应度低的个体淘汰,其中g<N2;其中适应度函数为
式中,Bicluster.Hscore是双聚类的平均平方残基,Bicluster.Volume是双聚类的大小;
7)然后将下一代种群P1(u2)的N1个体随机的加入到由步骤6)中由种群P2(u1)得到的适应度高的g个个体中,即将种群P1中的每个个体所对应的行和列分别独立地加入g个双聚类中,得到N2个包含较优且已扩大的双聚类个体的下一代种群P2(u2);
8)之后继续对种群P1(ui)使用遗传算法,产生下一代种群P1(ui+1)中的个体,将新一代的种群P1(ui+1)的N1个个体随机的加入到由种群P2(ui)得到的适应度高的g个个体中,又产生了新一代种群P2(ui+1);不断重复步骤5)、6)、7),直到达到预先设定的最大的进化次数,最后从种群P2中挑选出最优的双聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510008985.7/1.html,转载请声明来源钻瓜专利网。