[发明专利]一种基于共享字典学习的基因表达谱分类方法在审
申请号: | 201910296287.X | 申请日: | 2019-04-13 |
公开(公告)号: | CN110033824A | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 彭绍亮;刘伟;李非;杨亚宁;李肯立;潘佳铭;骆嘉伟;刘云浩;田李 | 申请(专利权)人: | 湖南大学 |
主分类号: | G16B25/10 | 分类号: | G16B25/10 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 王文惠 |
地址: | 410012 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因表达谱 样本 字典学习 共享 分类 测试样本 投影矩阵 训练字典 投影 字典 肿瘤 基因表达谱数据 分类准确度 分类领域 距离判定 系数编码 致病机理 字典重建 大数据 加宽 构建 稀疏 向量 亚型 癌症 基因 挖掘 治疗 应用 帮助 | ||
1.一种基于共享字典学习的基因表达谱分类方法,其特征在于,包括以下步骤:
步骤一:初始化字典和投影矩阵P,包括以下步骤,
1.1.输入基因表达谱训练样本集Y=[Y1,Y2,...,Yc],其中,c是总的类别数,Yc是类别为c的训练集数据的子集;
1.2.用随机数序列使字典初始化,字典其中D0是共享字典,以获取所有类别的样本,分字典D=[D1,D2,......,Dc],Dc是对应训练子集Yc的子字典;
1.3.用训练样本集Y的主成分分析转换矩阵初始化投影矩阵P;
步骤二:计算和更新稀疏编码系数矩阵包括以下步骤,
2.1.通过分系数矩阵获得字典的稀疏编码系数矩阵分系数矩阵X=[X1,X2,...Xc],Xc是类别为c的子系数,XT是X的转置矩阵,X0是Y在D上的稀疏系数,(X0)T是X0的转置矩阵;
2.2.通过稀疏表示得到最小目标函数最小目标函数表示为:
其中,c是总类别数,是类别为c的训练样本的子系数矩阵,是判别保真项,通过让字典误差最小化进而还原出投影后的每一类训练样本,以此增强同类样本的表示能力而且削弱不同类样本的表示能力,以确保最大程度地还原P;是稀疏项,通过参数λ来调整矩阵的稀疏程度以保持稀疏系数矩阵的稀疏性;f(X)是系数判别项,通过调节X的分布让类内分布最小化和类间分布最大化,以确保字典对训练样本集Y具备相关的辨别能力;
2.3.固定最小目标函数中字典和投影矩阵P的值,使得待求目标变成稀疏编码系数矩阵采用投影迭代法计算子类编码系数最后把子类编码系数组合成稀疏编码系数矩阵
步骤三:更新投影矩阵P,固定最小目标函数中字典和稀疏编码系数矩阵的值,将投影矩阵P直接投影到训练样本集Y;
步骤四:更新字典固定最小目标函数中投影矩阵P和稀疏编码系数矩阵的值,采用投影迭代法计算类别子字典然后把类别子字典组合成字典
步骤五:采用梯度下降的方式求最小目标函数的一个局部最优解,求解过程中循环执行步骤三和步骤四,直到重构误差趋于平稳不再变化,获得最终得到的字典和投影矩阵P;
步骤六:通过稀疏编码向量之间的距离来判定测试数据类别,包括以下步骤,
6.1.将步骤五获得的字典和投影矩阵P传入测试数据集y;
6.2.用投影矩阵P对y进行投影,让y投影到一个低维的空间,得到投影后的样本
6.3.在低维空间中用字典对进行稀疏线性表示得到稀疏编码向量u;
6.4.用稀疏编码向量u之间的距离作为判定依据来对进行最终分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910296287.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:转录组解析装置及解析方法
- 下一篇:一种箭筈豌豆种质资源筛选方法