[发明专利]一种基于聚类和随机森林算法的基因分类方法及系统有效
申请号: | 201810386382.4 | 申请日: | 2018-04-26 |
公开(公告)号: | CN108846259B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 孙林;李源;邹宁;徐天贺;韩庆阳;孔祥琳;张霄雨;赵婧;秦小营;殷腾宇;朱帅浩;王学敏 | 申请(专利权)人: | 河南师范大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B40/30 |
代理公司: | 郑州睿信知识产权代理有限公司 41119 | 代理人: | 吴敏 |
地址: | 453007 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 算法 基因 分类 方法 系统 | ||
本发明涉及一种基于聚类和随机森林算法的基因分类方法及系统,属于生物信息技术领域。本发明首先获取基因样本数据,利用聚类算法对获取的基因样本数据进行聚类,得到聚类中心,用得到的聚类中心集补充训练样本集;然后将传统随机森林算法中固定的决策树随机描述属性个数调整为随机值,一方面要保留决策树集中较强的决策树,另一方面要减少决策树集的平均随机描述属性个数,进而降低决策树之间的相关性;最后利用随机森林模型中每棵决策树对待分类的基因数据进行预测。本发明通过聚类算法得到的聚类中心作为人造数据对随机森林模型的训练集进行扩充,使随机森林模型得到充分的训练,得到的分类模型精度较高,提高了对基因数据分类的准确性。
技术领域
本发明涉及一种基于聚类和随机森林算法的基因分类方法及系统,属于生物信息技术领域。
背景技术
基因数据分类是当下信息和决策领域的研究重点和热点问题,由于基因数据具有维度高、样本小、噪声多、冗余属性多等特点。采用传统数据分析方法可能面临耗费时间较长、分类精度较低等问题。针对基因数据的这些特点,现有的模式识别和机器学习算法,如线性判别、支持向量机、人工神经网络和k近邻等算法已经得到了广泛的研究和应用。
随机森林算法(Random Forest,RF)是集成学习算法的一种,在处理多维数据时,具有快速、高效的特点,因此它很快成为一种经典的数据挖掘算法。近年来,在医学、生物信息学等领域得到了广泛的应用。其核心思想是通过对样本的随机采样,分类属性的随机抽取来生成大量有差异的决策树,采用决策树投票的方法来提高模型的准确率。算法在构建决策树时并不会将所有的属性都作为分类属性,而是随机选择属性集一部分作为分类属性,使决策树之间存在差异性,当决策树数目达到一定值的时候,分类精度就很难继续提高。另外随机森林等机器学习算法的准确率很大程度上取决于训练集的丰富性,因此,对于样本数较少的基因数据来说,随机森林算法的模型无法得到充分的训练。
郭颖婕等撰写的《植物抗性基因识别中的随机森林分类方法》(计算机科学与探索,2012,6(1):67-77.),提出了利用随机森林分类器和K-means聚类降采样的抗性基因识别方法,该方法首先提取氨基酸特征,用来描述蛋白质序列的全局信息,形成多维特征向量;然后采用K-means聚类对初始训练集中反例数据集进行K-means聚类,实现降采样;最后使用随机森林进行分类,从而实现基因的识别。该方法虽然也能够实现基因的分类,但是K-means聚类是对数据中样本数较多的一类样本集进行降采样,目的是降低数据的不平衡性并最大限度地保留数据的信息;而基因表达谱数据属于小样本数据,训练集个数较少,随机森林模型的精度不能保证,导致该方法分类不够准确。
发明内容
本发明的目的是提供一种基于聚类和随机森林算法的基因分类方法及系统,以解决目前基因分类方法由于样本数据少而导致分类不准确的问题。
本发明为解决上述技术问题而提供一种基于聚类和随机森林算法的基因分类方法,该基因分类方法包括以下步骤:
1)获取基因样本数据,利用聚类算法对获取的基因样本数据进行聚类,得到聚类中心;
2)将得到的聚类中心补充到基因样本数据中,形成数据集,并在数据集中抽取至少两个训练集,每个训练集生成一个子树,在随机森林模型每棵子树生成过程中选取基因数据中Ft个描述属性,找出信息增益率最大的描述属性作为分类属性,分裂每个节点直到所有叶节点中的样本都属于同一类,生成决策树,由生成的各决策树组成决策树集;
3)利用决策树集中每棵决策树对待分类的基因数据进行预测,将预测结果的众数作为该基因数据的分类。
本发明通过聚类算法得到的聚类中心作为人造数据对随机森林模型的训练集进行扩充,使随机森林模型得到充分的训练,得到的分类模型精度较高,提高了对基因数据分类的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南师范大学,未经河南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810386382.4/2.html,转载请声明来源钻瓜专利网。