[发明专利]一种早期NSCLC预后预测系统有效
申请号: | 202010873485.0 | 申请日: | 2020-08-26 |
公开(公告)号: | CN112037863B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 张汝阳;魏永越;陈峰;陈超;沈思鹏;赵杨;林丽娟;董学思;陈家进 | 申请(专利权)人: | 南京医科大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B50/00;G16B25/10;G16H50/30 |
代理公司: | 南京业腾知识产权代理事务所(特殊普通合伙) 32321 | 代理人: | 李静 |
地址: | 211166 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 早期 nsclc 预后 预测 系统 | ||
1.一种早期NSCLC预后预测模型,其特征在于,包括:
数据清洗模块,用于收集和清理样本数据,其中,数据类型包括甲基化数据和基因表达数据,并进行甲基化与基因表达的全基因组质控;
主效应识别模块,主效应识别模块与数据清洗模块相连,用于筛选对于预后有主效应的预测因子;
交互作用识别模块,交互作用识别模块与数据清洗模块相连,用于筛选对于预后有交互效应的预测因子;
生存时间预测模块,所述生存时间预测模块分别与数据清洗模块、主效应识别模块和交互作用识别模块相连,构建生存预测模型,用于预测患者三年和五年的生存概率,生存预测模型为:
Hazard(year)=baseline hazard(year)×exp(β1X1+...+βiXi);
其中,等式的右边是模型的具体函数,左边表示预测概率,βi表示模型的系数,baselinehazard为基线风险,对应于所有变量都取值为0时的风险;
高危人群甄别模块,高危人群甄别模块与生存时间预测模块相连,用于区分个体预后风险,包括高危、中危和低危。
2.根据权利要求1所述的一种早期NSCLC预后预测模型,其特征在于:所述数据清洗模块收集样本数据的具体方法为,以标准操作程序采集符合标准的血液或组织样本,系统收集完整的人口学随访资料和临床资料,并采用基因组芯片扫描以获取疾病相关的甲基化和基因表达谱,建立统一标准的样本数据库。
3.根据权利要求1所述的一种早期NSCLC预后预测模型,其特征在于:所述数据清洗模块对收集的数据进行甲基化与基因表达的全基因组质控的方法为,利用高密度甲基化和基因表达探针,筛选与早期NSCLC预后有阳性关联的甲基化和基因表达,对于甲基化数据,使用Illumina Infinium HumanMethylation450 BeadChips分析DNA甲基化,将原始图像数据导入Genome Studio甲基化模块V1.8,以计算甲基化信号,并执行归一化、背景扣除和质量控制,对于基因表达数据,包括TCGA数据和GEO数据,进行mRNA测序数据处理和质量控制,使用RNA测序通过期望最大化将原始计数标准化,并从TCGA数据网站下载了Level-3基因定量数,进一步质量控制。
4.根据权利要求3所述的一种早期NSCLC预后预测模型,其特征在于:对于甲基化数据的质量控制的不合格标准为:(1)5%的样品中检测失败P0.05;(2)变异系数CV5%,(3)所有样品甲基化或者未甲基化;(4)位于探针序列或10bp侧翼区域的常见单核苷酸多态性;(5)交叉反应位点;(6)数据未在所有中心通过QC,其中在剔除具有5%的样品中检测失败样品后,进一步的处理,包括:分位数标准化、一型和二型探针校正和批次效应校正;
对于基因表达数据,GEO基因表达数据包括GSE29013、GSE30219、GSE31210、GSE31546,并在分析前进行了log2转化,各个中心内进行了标准化,继而进行批次效应校正。
5.根据权利要求1所述的一种早期NSCLC预后预测模型,其特征在于:在主效应识别模块中,内置迭代确定性独立筛选算法,筛选阳性主效应的分子生物标记物。
6.根据权利要求1所述的一种早期NSCLC预后预测模型,其特征在于:在交互作用识别模块中,利用穷举式检索并内置并行算法,从全表观基因组GxE交互作用角度,筛选早期NSCLC预后的预测因子cg14326354,从GxG交互作用角度,筛选早期NSCLC预后的预测因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京医科大学,未经南京医科大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010873485.0/1.html,转载请声明来源钻瓜专利网。