[发明专利]基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法有效
申请号: | 201410745298.9 | 申请日: | 2014-12-09 |
公开(公告)号: | CN104462817B | 公开(公告)日: | 2017-07-25 |
发明(设计)人: | 陈晶;张苗;邵学广 | 申请(专利权)人: | 西北师范大学;陈晶 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 甘肃省知识产权事务中心62100 | 代理人: | 周立新 |
地址: | 730070 甘肃*** | 国省代码: | 甘肃;62 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,用蒙特卡洛方法从原样本的基因表达数据中产生多个基因子集;每个子集通过非负矩阵因子分解方法分解为系数矩阵和基矩阵;每一个非负矩阵因子分解迭代中,若基矩阵中某样本的稀疏性小于原样本的最小稀疏性,该样本中的元素从小到大逐步被零代替,至其稀疏性不再小于原样本最小稀疏性;判断收敛;迭代收敛后,基因得分用于判断基因的重要性按得分大小以降序排列基因,逐个选择序列中的基因建立一系列模型,各模型通过十折交叉验证方法校正;准确性最好的模型被用于预测。该方法能有效鉴别基因中的生物标志物,且由鉴定出的生物标志物建立的模型可用于有效地预测新的癌症中的显型。 | ||
搜索关键词: | 基于 蒙特卡洛 矩阵 因子 分解 基因 选择 癌症 分类 方法 | ||
【主权项】:
一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,其特征在于,该方法具体为:利用蒙特卡洛方法从原样本的基因表达数据中产生S个基因子集;每个m×ns基因子集包含1/5的从基因表达数据中通过随机采样得到的ns个基因数据,当ns值小于矩阵的秩r时,ns值将设置为等于r;然后,每个子集通过非负矩阵因子分解方法分解为一个系数矩阵sW和一个基矩阵sH;sW中的初始元素是随机数,sH中的初始元素是子集中的元素;在每一个非负矩阵因子分解迭代中,如果sH中某样本的稀疏性小于原样本的最小稀疏性,该样本中的元素将从小到大逐步被零代替,直至其稀疏性不再小于原样本的最小稀疏性;为了判断收敛,参数sc定义如下:式中,V是矩阵;H是基矩阵;W是系数矩阵;是弗罗贝尼乌斯范数;t是第t个回归的数字;当sc值接近零时,计算趋近收敛;一个阈值用来判断收敛,即sc值小于该阈值时,认为计算收敛;如果当t值小于100时sc值小于阈值,则t值设为100;迭代收敛后,如下基因得分用于判断基因的重要性:式中,E是一个基因的信息熵;r是矩阵的秩;一个基因在S个子集中出现Sg次,因此,其最终得分是其Sg个得分的平均值;然后,所有基因按其得分的大小以降序排列,通过逐个选择序列中的基因建立一系列模型,且每个模型通过基于PLS‑LDA的十折交叉验证方法进行校正;校正准确性最好的模型被用于预测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北师范大学;陈晶,未经西北师范大学;陈晶许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410745298.9/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用