[发明专利]一种基于聚类和随机森林算法的基因分类方法及系统有效
申请号: | 201810386382.4 | 申请日: | 2018-04-26 |
公开(公告)号: | CN108846259B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 孙林;李源;邹宁;徐天贺;韩庆阳;孔祥琳;张霄雨;赵婧;秦小营;殷腾宇;朱帅浩;王学敏 | 申请(专利权)人: | 河南师范大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B40/30 |
代理公司: | 郑州睿信知识产权代理有限公司 41119 | 代理人: | 吴敏 |
地址: | 453007 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于聚类和随机森林算法的基因分类方法及系统,属于生物信息技术领域。本发明首先获取基因样本数据,利用聚类算法对获取的基因样本数据进行聚类,得到聚类中心,用得到的聚类中心集补充训练样本集;然后将传统随机森林算法中固定的决策树随机描述属性个数调整为随机值,一方面要保留决策树集中较强的决策树,另一方面要减少决策树集的平均随机描述属性个数,进而降低决策树之间的相关性;最后利用随机森林模型中每棵决策树对待分类的基因数据进行预测。本发明通过聚类算法得到的聚类中心作为人造数据对随机森林模型的训练集进行扩充,使随机森林模型得到充分的训练,得到的分类模型精度较高,提高了对基因数据分类的准确性。 | ||
搜索关键词: | 一种 基于 随机 森林 算法 基因 分类 方法 系统 | ||
【主权项】:
1.一种基于聚类和随机森林算法的基因分类方法,其特征在于,该基因分类方法包括以下步骤:1)获取基因样本数据,利用聚类算法对获取的基因样本数据进行聚类,得到聚类中心;2)将得到的聚类中心补充到基因样本数据中,形成数据集,并在数据集中抽取至少两个训练集,每个训练集生成一个子树,在随机森林模型每棵子树生成过程中选取基因数据中Ft个描述属性,找出信息增益率最大的描述属性作为分类属性,分裂每个节点直到所有叶节点中的样本都属于同一类,生成决策树,由生成的各决策树组成决策树集;3)利用决策树集中每棵决策树对待分类的基因数据进行预测,将预测结果的众数作为该基因数据的分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南师范大学,未经河南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810386382.4/,转载请声明来源钻瓜专利网。