[发明专利]一种基于机器学习的基因表达谱聚类方法在审
申请号: | 201910539449.8 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110245717A | 公开(公告)日: | 2019-09-17 |
发明(设计)人: | 彭绍亮;潘佳铭;张磊 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G16B25/10 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 王文惠 |
地址: | 410012 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于机器学习领域,涉及机器学习中的聚类,特别涉及基于机器学习的基因表达谱聚类算法,属于机器学习在生物大数据分析上的应用。通过将多种单一聚类算法组成一种混合聚类方法的方式,解决了传统单一聚类算法中由于聚类算法不适用于数据组时而导致聚类效果不理想的情况,并且混合聚类方法可以通过比较各不同单一算法的聚类结果,得到具有最优解的聚类结果,以解决聚类最优解的问题。本方法具有适用范围广的优点,可以适用于所有数据组,并且本方法具有很高的移植性,任何单一的聚类算法均可以适用。 | ||
搜索关键词: | 聚类 聚类算法 基因表达谱 基于机器 机器学习 聚类结果 数据组 最优解 机器学习领域 单一算法 大数据 移植性 学习 应用 分析 | ||
【主权项】:
1.一种基于机器学习的基因表达谱聚类方法,其特征在于,包含如下步骤:步骤一:对原始数据进行预处理,包括以下步骤:(1)对属于同一细胞系的基因表达谱的数据打上类别标签,分别标记为{t0,t1,…,ti,…,tn},其中ti表示将同一类别数据标记为类名为ti的类,用于区分不同细胞系的数据;(2)将不同细胞系的基因表达谱的数据进行充分混合,并且打乱各不同细胞系的数据,用于划分能体现出各个细胞系数据分布的训练集数据和测试集数据,使同一细胞系的数据能够足够分散,不同细胞系的数据能够足够融合;(3)将充分混合后的总数据分别按数据量的30%和数据量的70%、数据量的50%和数据量的50%、数据量的70%和数据量的30%的比例将总数据分为训练组数据和测试组数据;步骤二:训练聚类算法,包括以下步骤:(1)基于KMeans、MiniBatchKMeans、Hierarchical clustering、GMM和Birch这五种聚类算法组成混合式聚类方法,避免选择单一聚类算法时的人为因素,并选出具有最高准确率的聚类结果;(2)将训练组数据输入混合式聚类方法中并加以训练,既可使用这五种单一的聚类算法,还可根据自身需要以及数据类型,选择其他不同的聚类算法,以适用于全部单一的聚类算法;步骤三:使用测试数据进行样本数据的聚类,包括以下步骤:(1)训练组数据完成聚类练习后,再将测试组数据输入已训练的聚类算法中,对测试组数据进行预测分析;(2)通过比较各测试组数据样本预测的类别标签和各样本自身的类别标签,计算出每种聚类算法对测试集数据样本类别标签的预测准确率;(3)计算出各个聚类算法对数据的预测准确率后,选择出具有最高预测准确率的算法,输出此算法的预测准确率,若同时有多个具有相同的最高准确率的聚类算法,同时输出这些算法名及其预测准确率;步骤四:将最优聚类预测结果以图形化显示将具有最优预测结果及最高预测准确率的聚类结果以图形化的方式展现出来,聚类结果的图形上标明聚类算法及其预测准确率,若同时有多个具有相同的最高准确率的聚类算法,同时显示出这些算法的聚类结果,并且在个聚类结果的图形上标明聚类算法的名称及其预测准确率,以便于观察最终的聚类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910539449.8/,转载请声明来源钻瓜专利网。
- 上一篇:样本标注审核方法及装置
- 下一篇:一种基于联合时域频域特征的人体行为识别方法