[发明专利]一种基于基因大数据的预后预测方法及预测系统在审
申请号: | 201911256723.7 | 申请日: | 2019-12-10 |
公开(公告)号: | CN110942808A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 张海霞;刘艺迪;袁东风 | 申请(专利权)人: | 山东大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00;G06N20/00 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 王楠 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 基因 数据 预后 预测 方法 系统 | ||
本发明涉及一种基于基因大数据的预后预测方法及预测系统,属于人工智能技术领域,主要包含以下步骤:提取组织样本中的基因信息组成训练集,使用relief算法对基因重要性进行排序,使用机器学习算法模型对预后时间进行拟合分类,选取准确率最高的算法模型以及基因特征数作为特定病种的基因特征数以及预测方法。本方法在模型训练完成后可以快速对新的基因数据进行测试,可以帮助进行预后评估。
技术领域
本发明涉及一种基于基因大数据的癌症预后预测方法及预测系统,属于人工智能技术领域。
背景技术
根据美国癌症协会报告的年度统计数据,每4例癌症死亡中就有1例死于肺癌。虽然以前的学者从微阵列技术和下一代测序(NGS)中获得了大量数据,但这些数据中的信息可能无法完全探索。传统的生存预测取决于患者的临床病理特征,有时不精确。
近年来,随着二代测序技术的发展,我们能够获得大规模的癌症样本基因测序数据,而大数据人工智能的发展又使我们从这海量数据中挖掘有价值的潜在信息成为了可能。目前针对癌症预后预测问题,普遍使用较直观的临床特征,结合传统统计学方法进行预测。虽然有部分研究已将研究重点转移到基因特征层面上来,但都采用传统的统计学方法根据基因表达的差异进行基因特征的选取,对于某些表达差异较小但对预后影响较大的基因无法发现。为了更准确,在本申请中,将从上述数据中选择的遗传特征与患者的生存时间相关联,确定基因与存活时间之间的相关性,得到校准的预测模型。
发明内容
针对现有技术的不足,本发明提出新的癌症预后建模方法及预测系统,一种基于基因大数据的癌症预后时间预测分类以及相关发现相关致病基因基因的方法,在基于基因大数据的基础上,使用relief算法对基因特征筛选,对所有基因按照区分不同预后时间分组的重要程度进行排序,结合8种机器学习算法(支持向量机,随机森林,Logistic回归,朴素贝叶斯,线性回归,支持向量回归-多项式核函数,支持向量回归-线性核函数和岭回归)对癌症患者预后进行预测。该方法简单,高效,适用于范围广的基于基因表达的不同癌症。方法包括对样本数据进行筛选与清洗,基因数据的筛选与清洗,基因重要性排序,模型训练以及挑选,最后对新样本进行预测。帮助医生对癌症患者进行病情预估,辅助治疗。
本发明的技术方案如下:
一种基于基因大数据的预后预测方法,包括步骤如下:
(1)数据收集及融合;收集病人新鲜或冷冻癌症组织样本并进行测序得到基因数据,并根据后续走访调查获得病人的生存时间以及生存状态的临床数据;所述临床数据为生存时间数据,将基因数据与临床数据进行融合、根据样本名称匹配相对应临床数据也就是生存时间数据,将生存时间缺失的样本进行删除,所述基因数据在测序得到raw counts数值后,将其标准化为FPKM(Fragments Per Kilobase Million)格式数据进行后续处理;
(2)根据临床数据的规定条件筛选样本:选取临床数据中生存状态为去世以及生存状态为存活且存活时间大于两年的样本;这里之所以抛弃依然存活但存活时间小于两年的样本是因为我们无法确定类似样本的最终存活时间属于较长组(>3年)抑或是较短组(<3年).
(3)根据基因数据的规定条件筛选样本:
将过多未能检测出表达的基因特征删除,并将基因数据进行归一化;所述过多未能检测出表达的基因特征具体是指某一基因在大于百分之85的样本中都表达为零则认定该基因在大部分样本中未被测出,故而抛弃该特征;归一化方法具体为将每一种基因的FPKM值除以该基因表达的最大值,使每个基因FPKM值位于0-1之间;所述基因表达指通过测量得到的来自基因的遗传信息合成功能性基因产物的多少,呈FPKM格式数据;
然后将非原发性肿瘤样本也就是非癌症组织样本从数据集中进行删除,只保留癌症组织样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911256723.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置