[发明专利]一种基于聚类和随机森林算法的基因分类方法及系统有效
申请号: | 201810386382.4 | 申请日: | 2018-04-26 |
公开(公告)号: | CN108846259B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 孙林;李源;邹宁;徐天贺;韩庆阳;孔祥琳;张霄雨;赵婧;秦小营;殷腾宇;朱帅浩;王学敏 | 申请(专利权)人: | 河南师范大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B40/30 |
代理公司: | 郑州睿信知识产权代理有限公司 41119 | 代理人: | 吴敏 |
地址: | 453007 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 算法 基因 分类 方法 系统 | ||
1.一种基于聚类和随机森林算法的基因分类方法,其特征在于,该基因分类方法包括以下步骤:
1)获取基因样本数据,利用聚类算法对获取的基因样本数据进行聚类,得到聚类中心;所述基因样本数据为基因表达谱数据集;
2)将得到的聚类中心补充到基因样本数据中,形成数据集,并在数据集中抽取至少两个训练集,每个训练集生成一个子树,在随机森林模型每棵子树生成过程中选取基因数据中Ft个描述属性,找出信息增益率最大的描述属性作为分类属性,分裂每个节点直到所有叶节点中的样本都属于同一类,生成决策树,由生成的各决策树组成决策树集;
3)利用决策树集中每棵决策树对待分类的基因数据进行预测,将预测结果的众数作为该基因数据的分类。
2.根据权利要求1所述的基于聚类和随机森林算法的基因分类方法,其特征在于,所述步骤1)中的聚类算法采用K-means++算法,在K-means++算法进行聚类过程中,采用Rsim函数来衡量样本间的相似度,Rsim函数表达式为:
其中d为基因样本数据的样本维度,和分别表示两个d维向量,xi和yi分别为向量和的i维属性值,min(xi,yi)代表xi和yi中绝对值较小的一个。
3.根据权利要求1所述的基于聚类和随机森林算法的基因分类方法,其特征在于,所述步骤1)中的聚类算法采用K-means++算法,在K-means++算法进行聚类过程中,在Rsim的基础上定义Sim函数来衡量样本间的相似度,Sim函数表达式为:
其中d为基因样本数据的样本维度,和分别表示两个d维向量,xi和yi分别为向量和的i维属性值,min(xi,yi)代表xi和yi中绝对值较小的一个,为向量和的余弦系数。
4.根据权利要求2或3所述的基于聚类和随机森林算法的基因分类方法,其特征在于,所述步骤2)中在进行随机森林模型训练时所选取的描述属性个数Ft是随机的,其表达式为:
设训练集样本的描述属性数为L,rand(a1,b1)为区间(a1,b1)内的一个随机数,参数kp的取值区间为
5.根据权利要求1所述的基于聚类和随机森林算法的基因分类方法,其特征在于,所述步骤1)在对基因样本数据聚类前,需要对基因样本数据进行降维处理。
6.根据权利要求5所述的基于聚类和随机森林算法的基因分类方法,其特征在于,所述步骤1)采用Fisher Score算法对基因样本数据进行降维处理。
7.根据权利要求1所述的基于聚类和随机森林算法的基因分类方法,其特征在于,所述步骤2)中在利用训练集对随机森林模型进行训练前,还需对训练集中样本数较少的一类样本进行过采样。
8.根据权利要求1所述的基于聚类和随机森林算法的基因分类方法,其特征在于,随机森林采用C4.5算法生成子树,并在C4.5算法中,引入二元化的基于熵的分割算法,该算法的划分指标是信息增益最大原则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南师范大学,未经河南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810386382.4/1.html,转载请声明来源钻瓜专利网。