[发明专利]基于转录组数据确定肿瘤标记物的方法有效
申请号: | 201510919456.2 | 申请日: | 2015-12-11 |
公开(公告)号: | CN106874705B | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 李姣;郑思 | 申请(专利权)人: | 中国医学科学院医学信息研究所 |
主分类号: | G16B20/30 | 分类号: | G16B20/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 李志东 |
地址: | 100020*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于转录组数据确定肿瘤标记物的方法,包括:(1)获得转录组数据,包括第一和第二转录组数据,第一和第二转录组数据分别包括第一和第二个体样本的mRNA、lncRNA和miRNA表达数据,第一和第二个体样本的区别包括分别具有一对相对表型特征中的一个;(2)分别建立个体具有表型特征与三种RNA表达量关系的正则化逻辑回归模型,分别利用模型对三种RNA表达数据进行回归,获得三种RNA分子回归系数;(3)利用网格搜索,分别依据三种RNA分子回归系数确定三种RNA阈值;(4)分别将三种RNA分子回归系数与对应阈值比较,确定三种RNA候选标记;(5)混合三种RNA候选标记物获得RNA混合数据,以RNA混合数据替代转录组数据进行(2)‑(4),确定肿瘤标记物。 | ||
搜索关键词: | 基于 转录 数据 确定 肿瘤 标记 方法 | ||
【主权项】:
1.一种基于转录组数据确定肿瘤标记物的方法,其特征在于,包括:(1)获得转录组数据,所述转录组数据包括多个个体样本的mRNA表达数据、lncRNA表达数据和miRNA表达数据,所述转录组数据包括第一转录组数据和第二转录组数据,所述第一转录组数据包括多个第一个体样本的mRNA表达数据、lncRNA表达数据和miRNA表达数据,所述第二转录组数据包括多个第二个体样本的mRNA表达数据、lncRNA表达数据和miRNA表达数据,所述第一个体样本和所述第二个体样本分别具有一对相对表型特征中的一个,所述表型特征与所述肿瘤相关;(2)分别建立个体存在所述表型特征与所述个体的mRNA、lncRNA和miRNA表达量的关系的正则化的逻辑回归模型,分别利用建立的正则化的逻辑回归模型对所述转录组数据中的mRNA表达数据、lncRNA表达数据和miRNA表达数据中的RNA分子进行回归分析,确定mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数,其中,建立逻辑回归模型,利用组套索算法正则化所述逻辑回归模型,包括确定调整参数λ,包括,确定所述调整参数的最大值λmax,对λ进行从0到λmax的网格化划分,任选的对λ进行从0到λmax的幂函数网格化划分,获得2+Num1个λi,其中i∈[0,Num1],任选的Num1为该种类型的RNA分子的个数,对于每个λi,基于所述转录组数据中的该种类型的RNA表达数据和所述逻辑回归模型,采用k倍交叉验证,确定其所对应的预测概率,其中包括,基于训练集确定所述逻辑回归模型的回归系数,利用确定了回归系数的逻辑回归模型预测验证集中个体样本存在所述表型特征的概率,获得k个所述预测概率,基于比较所述k个预测概率与其真实值的差异,利用ROC分析进行评估,确定最大AUC对应的λi为所述调整参数;(3)利用网格搜索,分别依据所述mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数确定mRNA阈值、lncRNA阈值和miRNA阈值,其中,步骤(3)是通过下列方式实现的:确定所述阈值cutoff的最大值cutoffmax,其中包括,分别以mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数中的绝对值最大的回归系数为该种类型RNA的阈值最大值cutoffmax,对cutoff进行从0到cutoffmax的网格化划分,任选的对cutoff进行从0到cutoffmax的幂函数网格化划分,获得2+Num2个cutoffj,其中j∈[0,Num2],任选的Num2为该种类型RNA分子的个数,对于每个cutoffj,采用留一法交叉验证,确定其所对应的预测概率,其中包括,选取该种类型RNA表达数据中回归系数绝对值大于cutoffj的RNA分子作为新模型的自变量,基于训练集确定所述新模型的回归系数,基于验证集、利用确定了回归系数的新模型预测个体样本存在所述表型特征的概率,获得2+Num2个所述预测概率,所述新模型为另一逻辑回归模型,基于比较所述2+Num2个预测概率与其真实值的差异,利用ROC分析进行评估,确定最大AUC对应的cutoffj为所述阈值;(4)分别将所述mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数与其对应的阈值比较,以确定mRNA候选标记物、lncRNA候选标记物和miRNA候选标记物;(5)混合所述mRNA候选标记物、lncRNA候选标记物和miRNA候选标记物,获得RNA混合数据,以所述RNA混合数据替代所述转录组数据进行步骤(2)‑(4),以确定所述肿瘤标记物。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国医学科学院医学信息研究所,未经中国医学科学院医学信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510919456.2/,转载请声明来源钻瓜专利网。
- 上一篇:混凝土预留孔的模具及其施工方法
- 下一篇:一种新型混凝土顶模棍
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置