[发明专利]一种基于基因组分析的癌症分期预测系统有效
申请号: | 202010003411.1 | 申请日: | 2020-01-03 |
公开(公告)号: | CN111180009B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 张海霞;李芳君;袁东风 | 申请(专利权)人: | 山东大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B40/00 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 基因组 分析 癌症 分期 预测 系统 | ||
本发明涉及一种基于基因组分析的癌症分期预测系统,包括依次连接的原始数据采集单元、组合特征预处理单元、联合基因选择单元、分类模型创建单元、预测单元;原始数据采集单元用于:获取癌症基因组图谱TCGA项目对应癌症亚型样本的RNAseq表达数据及临床信息,获取其中基因表达的RSEM值;组合特征预处理单元用于:离散化遗传特征;或者,添加1.0之后,使用log2转换RSEM值,并标准化log2转换后的RSEM值;联合基因选择单元用于:依次进行FCBF搜索、联合统计特征提取、logistic回归模型特征选择;分类模型创建单元用于生成分类模型,并优化其性能;本发明预测表现上面更稳定、更准确。
技术领域
本发明涉及生物信息、机器学习技术领域,具体地,涉及一种基于基因组分析的癌症分期预测系统。
背景技术
癌症与基因有很大的关联关系。当肿瘤在晚期被发现时,存活率非常低,而早期发现和有效的治疗可以提高存活率。因此,制定有效的策略,根据癌症分期和驱动癌症发展和进展的内在机制对患者进行分层,对于癌症的早期预防和治疗至关重要。癌症通常在早期无症状,在诊断为癌症时很多患者有转移。通过切除术切除的患者有转移性复发的高风险,早期检测有助于早期癌症的预防和治疗。此外,了解疾病进展的关键基因驱动因素有助于开发新的治疗方法。
由于传统的成像技术,如超声和计算机断层扫描(CT),引导活检在检测原发性癌方面的表现不够稳定,因此,需要开发新的诊断方法。基因表达谱在肿瘤发生和转移过程中起着重要的作用,因此具有潜在的分类价值。基于机器学习的方法可以利用基因表达谱来鉴别各种癌症的分期最近显示出巨大潜力,虽然已有研究人员利用分类模型对早期和晚期的样本进行了区分,参见论文Rahimi,Arezou,and Mehmet Discriminatingearly-and late-stage cancers using multiple kernel learning on gene sets.Bioinformatics 34.13(2018):i412-i421.及Bhalla,Sherry,et al.Gene expression-based biomarkers for discriminating early and late stage of clear cell renalcancer.Scientific reports 7(2017):44997,论文中改进模型对多种癌症进行了分级预测,但在100次随机实验中结果分布范围比较大,表现不稳定;总之,现有技术中的分类模型的稳定性并不能得到保证,模型的性能仍有提高的空间。
中国专利文献CN 109994151A公开了基于复杂网络与机器学习方法的肿瘤驱动基因预测系统。本发明是对潜在肿瘤驱动基因进行预测,在一定程度上加深对癌症的认识,进而推动癌症治疗的发展。本发明包括数据采集和数据预处理模块、特征工程模块、模型算法设计模块、结果评估模块。数据采集和数据预处理模块:数据采集和数据预处理模块包括数据采集、构建肿瘤基因网络,以及最大连通子图的筛选,为驱动基因预测提供数据基础。特征工程模块包括特征工程提取和特征工程整理。模型算法设计模块包括构造训练样本、预测模型设计。结果评估模块是采用混淆矩阵和ROC曲线验证模型的预测效果。但是,该专利存在以下缺陷:该专利中采用基因网络的特征选择方法,基因特征上万条,构建的网络会非常复杂。
发明内容
针对现有技术的不足,本发明提供了一种基于基因组分析的癌症分期预测系统;
术语解释:
1、RSEM值,是指TCGA的gene expression RNAseq数据的一种形式,可以从网站下载:
https://xenabrowser.net/datapages/。
2、ChiMerge分箱,卡方分箱,是依赖于卡方检验的分箱方法,在统计指标上选择卡方统计量(Chi-Square)进行判别,分箱的基本思想是判断相邻的两个区间是否有分布差异,基于卡方统计量的结果进行自下而上的合并,直到满足分箱的限制条件为止。卡方分箱的实现步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010003411.1/2.html,转载请声明来源钻瓜专利网。