[发明专利]一种基于共享字典学习的基因表达谱分类方法在审
申请号: | 201910296287.X | 申请日: | 2019-04-13 |
公开(公告)号: | CN110033824A | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 彭绍亮;刘伟;李非;杨亚宁;李肯立;潘佳铭;骆嘉伟;刘云浩;田李 | 申请(专利权)人: | 湖南大学 |
主分类号: | G16B25/10 | 分类号: | G16B25/10 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 王文惠 |
地址: | 410012 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于基因表达谱分类领域,公开了一种基于共享字典学习的基因表达谱分类方法,属于稀疏字典学习在生物大数据上的挖掘和应用。本方法首先构建一个共享字典,该字典能够获取所有类别的样本;然后训练字典,在训练字典的同时还训练投影矩阵,并且投影矩阵对测试样本的投影可以加宽不同类型样本之间的距离;最后,通过使用字典重建测试样本的系数编码向量之间的距离判定类别。该方法能够快速高效地对基因表达谱数据分类,这有助于区分癌症种类及其亚型,帮助从分子层面认识肿瘤的致病机理,并为彻底治疗肿瘤提供基因层次的解决方案。该方法具有共享样本的能力,少量样本时能保持稳定的投影能力,和一般的分类方法相比较,分类准确度有很大提升。 | ||
搜索关键词: | 基因表达谱 样本 字典学习 共享 分类 测试样本 投影矩阵 训练字典 投影 字典 肿瘤 基因表达谱数据 分类准确度 分类领域 距离判定 系数编码 致病机理 字典重建 大数据 加宽 构建 稀疏 向量 亚型 癌症 基因 挖掘 治疗 应用 帮助 | ||
【主权项】:
1.一种基于共享字典学习的基因表达谱分类方法,其特征在于,包括以下步骤:步骤一:初始化字典
和投影矩阵P,包括以下步骤,1.1.输入基因表达谱训练样本集Y=[Y1,Y2,...,Yc],其中,c是总的类别数,Yc是类别为c的训练集数据的子集;1.2.用随机数序列使字典
初始化,字典
其中D0是共享字典,以获取所有类别的样本,分字典D=[D1,D2,......,Dc],Dc是对应训练子集Yc的子字典;1.3.用训练样本集Y的主成分分析转换矩阵初始化投影矩阵P;步骤二:计算和更新稀疏编码系数矩阵
包括以下步骤,2.1.通过分系数矩阵获得字典的稀疏编码系数矩阵
分系数矩阵X=[X1,X2,...Xc],Xc是类别为c的子系数,XT是X的转置矩阵,X0是Y在D上的稀疏系数,(X0)T是X0的转置矩阵;2.2.通过稀疏表示得到最小目标函数
最小目标函数表示为:
其中,c是总类别数,
是类别为c的训练样本的子系数矩阵,
是判别保真项,通过让字典
误差最小化进而还原出投影后的每一类训练样本,以此增强同类样本的表示能力而且削弱不同类样本的表示能力,以确保
最大程度地还原P;
是稀疏项,通过参数λ来调整矩阵
的稀疏程度以保持稀疏系数矩阵
的稀疏性;f(X)是系数判别项,通过调节X的分布让类内分布最小化和类间分布最大化,以确保字典
对训练样本集Y具备相关的辨别能力;2.3.固定最小目标函数
中字典
和投影矩阵P的值,使得待求目标变成稀疏编码系数矩阵
采用投影迭代法计算子类编码系数
最后把子类编码系数
组合成稀疏编码系数矩阵
步骤三:更新投影矩阵P,固定最小目标函数
中字典
和稀疏编码系数矩阵
的值,将投影矩阵P直接投影到训练样本集Y;步骤四:更新字典
固定最小目标函数
中投影矩阵P和稀疏编码系数矩阵
的值,采用投影迭代法计算类别子字典
然后把类别子字典
组合成字典
步骤五:采用梯度下降的方式求最小目标函数
的一个局部最优解,求解过程中循环执行步骤三和步骤四,直到重构误差趋于平稳不再变化,获得最终得到的字典
和投影矩阵P;步骤六:通过稀疏编码向量之间的距离来判定测试数据类别,包括以下步骤,6.1.将步骤五获得的字典
和投影矩阵P传入测试数据集y;6.2.用投影矩阵P对y进行投影,让y投影到一个低维的空间,得到投影后的样本
6.3.在低维空间中用字典
对
进行稀疏线性表示得到稀疏编码向量u;6.4.用稀疏编码向量u之间的距离作为判定依据来对
进行最终分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910296287.X/,转载请声明来源钻瓜专利网。
- 上一篇:转录组解析装置及解析方法
- 下一篇:一种箭筈豌豆种质资源筛选方法