[发明专利]融合自学习和低秩表示的基因表达数据癌症分类方法有效
申请号: | 201611207518.8 | 申请日: | 2016-12-23 |
公开(公告)号: | CN107526946B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 於东军;夏春秋;韩珂 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B25/10 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 王玮 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 自学习 表示 基因 表达 数据 癌症 分类 方法 | ||
本发明公开了一种融合自学习和低秩表示的基因表达数据癌症分类方法,包括:步骤1、对于给定的癌症基因表达数据集,将数据合并构建数据矩阵,并作归一化处理;步骤2、对于得到的数据矩阵,利用低秩表达方法进行分解,得到一个低秩矩阵和一个稀疏矩阵;步骤3、利用训练集的标签信息,在低秩矩阵和稀疏矩阵上分别计算每个类别的初始点;步骤4、分别在低秩矩阵和稀疏矩阵上使用一种无监督聚类方法,分别获得基于低秩矩阵和稀疏矩阵的预测结果;步骤5、对比两个预测结果,若无预测相同的样本或达到最大迭代次数,输出基于低秩表达矩阵的预测结果;否则,将预测相同的样本移除测试集并加入训练集,回到步骤3。利用本发明可在利用少量标注样本的情况下提高预测精度,减少了标注样本中的时间和人力成本。
技术领域
本发明涉及生物信息学基因表达和癌症分类领域,具体地说,是一种融合自学习和低秩表示的基因表达数据癌症分类方法。
背景技术
癌症是一种由于细胞非正常生长而产生的致命疾病,迄今为止,仍未有完全有效的治疗方法。及早地诊断能有效得帮助癌症治疗,所以如何对癌症进行准确的分类预测是一个非常具有研究价值的问题。随着高通量技术的发展,有关癌症的基因表达数据迅速地累积,同时机器学习技术也在近年来获得长足的进步,因此利用基因表达数据和机器学习来预测癌症类别成为可能,例如:(1)Chen,X.Y.and Jian,C.R.Gene expression dataclustering based on graph regularized subspace segmentation.Neurocomputing2014;143:44-50.(2)Liao,Q.,Guan,N.and Zhang,Q.Gauss-Seidel based non-negativematrix factorization for gene expression clustering.In,2016IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP).IEEE;2016.p.2364-2368.(3)Liu,J.X.,et al.RPCA-Based Tumor Classification Using GeneExpression Data.IEEE ACM T Comput Bi 2015;12(4):964-970.等。然而,现有的方法大多为无监督方法和监督方法,两者都有着各自的缺陷。
无监督方法学习方法通过提出一个模型来从无标签数据中发现潜在结构。由于所有的样本都是未标注的,所以在模型的训练中无法使用标签信息来进行误差修正。无监督学习的这一特性导致模型的预测能力较弱,无法提供有效的预测精度。监督学习方法与无监督学习相反,它通过使用有标签数据来训练模型。由于能够在训练中使用标签数据,监督学习方法得到的模型可以提供较高的预测精度。但利用监督方法训练一个模型需要使用大量的标注数据,而标注数据的成本往往十分昂贵且需要耗费大量的人力和时间,尤其是对基因表达数据进行标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611207518.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基层医疗卫生服务系统
- 下一篇:一种能够防止过载位移的凸轮式双转子泵