[发明专利]一种基于共享字典学习的基因表达谱分类方法在审
申请号: | 201910296287.X | 申请日: | 2019-04-13 |
公开(公告)号: | CN110033824A | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 彭绍亮;刘伟;李非;杨亚宁;李肯立;潘佳铭;骆嘉伟;刘云浩;田李 | 申请(专利权)人: | 湖南大学 |
主分类号: | G16B25/10 | 分类号: | G16B25/10 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 王文惠 |
地址: | 410012 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因表达谱 样本 字典学习 共享 分类 测试样本 投影矩阵 训练字典 投影 字典 肿瘤 基因表达谱数据 分类准确度 分类领域 距离判定 系数编码 致病机理 字典重建 大数据 加宽 构建 稀疏 向量 亚型 癌症 基因 挖掘 治疗 应用 帮助 | ||
本发明属于基因表达谱分类领域,公开了一种基于共享字典学习的基因表达谱分类方法,属于稀疏字典学习在生物大数据上的挖掘和应用。本方法首先构建一个共享字典,该字典能够获取所有类别的样本;然后训练字典,在训练字典的同时还训练投影矩阵,并且投影矩阵对测试样本的投影可以加宽不同类型样本之间的距离;最后,通过使用字典重建测试样本的系数编码向量之间的距离判定类别。该方法能够快速高效地对基因表达谱数据分类,这有助于区分癌症种类及其亚型,帮助从分子层面认识肿瘤的致病机理,并为彻底治疗肿瘤提供基因层次的解决方案。该方法具有共享样本的能力,少量样本时能保持稳定的投影能力,和一般的分类方法相比较,分类准确度有很大提升。
技术领域:
本发明属于基因表达谱分类领域,更具体的,涉及肿瘤细胞系基因表达谱数据的分类方法,特别涉及一种基于共享字典学习的基因表达谱分类方法。
背景技术:
肿瘤是一种严重威胁人体生命健康的疾病。长期以来,研究人员一直都在探寻治愈肿瘤的最佳手段。然而肿瘤类型众多,即使是同一种肿瘤也可以分为许多不同的亚型,而不同亚型肿瘤的治疗手段是不同的。因此,准确而快速地对肿瘤分类能最大程度地发挥治疗效果,延长甚至挽救病人的生命。利用肿瘤基因表达谱对肿瘤进行分类是当前一种比较新的肿瘤分类手段,该方法速度快,分类过程自动化,能节省大量的人力物力资源,已经成为当前肿瘤分类领域的研究热点。但当前大部分传统机器学习方法对肿瘤基因表达谱的分类准确率普遍较低,需要设计更适合的分类方法。字典学习分类方法是一种比较适合处理基因表达谱数据的方法,但一般的字典学习方法只注重提升所训练的字典对样本的重构能力,而忽视了其对样本的鉴别能力。同时,基因表达谱数据存在大量的冗余和噪声,使得普通的字典学习方法无法充分利用样本数据来获取所需要的数据特征,这会导致常规字典学习方法的分类器分类能力较弱,进而影响最终的分类结果,造成分类性能达不到所需标准。
发明内容:
本发明需要解决的技术问题是,充分发挥字典学习方法中字典对样本的重构能力,同时结合样本共享性来获取所有类别的样本,用以提高特征的映射和鉴别能力,以解决传统方法在肿瘤细胞系基因表达谱分类问题中分类准确率不高的问题。为了实现本发明的目的,通过以下技术方案来实现:
一种基于共享字典学习的基因表达谱分类方法,包括以下步骤:
步骤一:初始化字典和投影矩阵P,包括以下步骤,
1.1.输入基因表达谱训练样本集Y=[Y1,Y2,...,Yc],其中,c是总的类别数,Yc是类别为c的训练集数据的子集。
1.2.用随机数序列使字典初始化,字典其中D0是共享字典,以获取所有类别的样本,分字典D=[D1,D2,......,Dc],Dc是对应训练子集Yc的子字典。
1.3.用训练样本集Y的主成分分析转换矩阵初始化投影矩阵P。
步骤二:计算和更新稀疏编码系数矩阵包括以下步骤,
2.1.通过分系数矩阵获得字典的稀疏编码系数矩阵分系数矩阵X=[X1,X2,...Xc],Xc是类别为c的子系数,XT是X的转置矩阵,X0是Y在D上的稀疏系数,(X0)T是X0的转置矩阵。
2.2.通过稀疏表示得到最小目标函数最小目标函数表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910296287.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:转录组解析装置及解析方法
- 下一篇:一种箭筈豌豆种质资源筛选方法