[发明专利]一种基于基因大数据的预后预测方法及预测系统在审
申请号: | 201911256723.7 | 申请日: | 2019-12-10 |
公开(公告)号: | CN110942808A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 张海霞;刘艺迪;袁东风 | 申请(专利权)人: | 山东大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00;G06N20/00 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 王楠 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 基因 数据 预后 预测 方法 系统 | ||
1.一种基于基因大数据的预后预测方法,其特征在于,包括步骤如下:
(1)数据收集及融合;收集病人新鲜或冷冻癌症组织样本并进行测序得到基因数据,并根据后续走访调查获得病人的生存时间以及生存状态的临床数据;将基因数据与临床数据进行融合、根据样本名称匹配相对应临床数据,将生存时间缺失的样本进行删除,所述基因数据在测序得到raw counts数值后,将其标准化为FPKM格式数据进行后续处理;
(2)根据临床数据的规定条件筛选样本:选取临床数据中生存状态为去世以及生存状态为存活且存活时间大于两年的样本;
(3)根据基因数据的规定条件筛选样本:
将过多未能检测出表达的基因特征删除,并将基因数据进行归一化;所述过多未能检测出表达的基因特征是指某一基因在大于百分之85的样本中都表达为零则认定该基因在大部分样本中未被测出;归一化方法具体为将每一种基因的FPKM值除以该基因表达的最大值,使每个基因FPKM值位于0-1之间;所述基因表达指通过测量得到的来自基因的遗传信息合成功能性基因产物的多少,呈FPKM格式数据;
然后将非癌症组织样本从数据集中进行删除,只保留癌症组织样本;
(4)将经过步骤(2)、步骤(3)筛选后的样本再次根据预后时间分为预后时间大于三年和预后时间小于等于三年两类,使用relief算法对基因进行重要性排序;取一定数量的基因数据,并依次使用至少两种机器学习算法对癌症预后通过逐步增加基因特征数进行交叉验证,通过结果对比选择最优的模型以及基因特征数,所述基因特征数为基因数据的个数。
2.根据权利要求1所述的基于基因大数据的预后预测方法,其特征在于,步骤(4)中,重要性排序为:relief算法通过训练,对每一个基因产生一个相对应的权重,权重越高,该基因对于区分两组样本贡献越大,越重要,排序越靠前。
3.根据权利要求1所述的基于基因大数据的预后预测方法,其特征在于,步骤(4)中,选取基因数据的数量为至少一个。
4.根据权利要求1所述的基于基因大数据的预后预测方法,其特征在于,步骤(4)中,取基因数据,依次使用8种机器学习算法模型对癌症预后通过逐步增加基因特征数进行交叉验证,8种机器学习算法模型分别为支持向量机、随机森林、Logistic回归、朴素贝叶斯、线性回归、支持向量回归-多项式核函数、支持向量回归-线性核函数和岭回归;
分别对8种算法模型进行训练,并对结果进行记录,对每一个算法模型训练时,先取1个基因数据进行训练,然后取两个基因数据进行训练,依次增加基因数据的个数进行训练;每次通过算法模型训练获得并记录准确率,准确率为算法模型得到的预后时间与实际临床数据记载的生存时间相比、预后准确的样本个数占总样本个数的比值;记录每个算法模型下准确率最高时对应的选取的基因数据的个数;比较8个算法模型的结果,选出准确率最高的算法模型及其对应的准确率最高的选取的基因数据的个数。
5.根据权利要求4所述的基于基因大数据的预后预测方法,其特征在于,步骤(4)中,每次训练采用十折交叉验证,所述十折交叉验证,用来测试算法模型准确性,具体实施步骤为将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。
6.一种基于基因大数据的预后预测系统,其特征在于,包括数据预处理模块、筛选模块、训练验证模块,数据预处理模块用于将数据从公共数据库TCGA下载、标准化为FPKM格式数据,所述数据包括基因数据和临床数据;所述筛选模块用于将数据按照两类条件筛选,两类条件分别为临床数据的规定条件和基因数据的规定条件;训练验证模块包括至少两种算法模型,训练验证模块用于将筛选模块筛选后的样本再次分类、并使用relief算法对基因进行重要性排序、分别对不同的算法模型输入数据进行训练,通过训练验证模块比较不同算法模型的结果,选出准确率最高的算法模型及其对应的准确率最高的选取的基因数据的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911256723.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置