[发明专利]非小细胞肺癌集成预后预测模型及其构建方法、装置和应用有效
申请号: | 202110500821.1 | 申请日: | 2021-05-08 |
公开(公告)号: | CN113223727B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 吕旭东;胡丹青;段会龙 | 申请(专利权)人: | 浙江大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 细胞 肺癌 集成 预后 预测 模型 及其 构建 方法 装置 应用 | ||
1.一种非小细胞肺癌集成预后预测模型的构建方法,其特征在于,包括以下步骤:
(1)将原始数据集按K折交叉验证机制分割成K个子集,并从K个子集中选择1个子集作为验证集Ddev,其余子集合并成训练数据池Dpool;
(2)根据预定义的训练集样本个数Ninit,针对每个类别,从训练数据池Dpool中抽取Ninit/2个样本组成训练数据集Dtrain,并从训练数据池Dpool中移除组成训练数据集Dtrain的样本;
(3)根据训练数据集Dtrain,基于有监督分类算法构建基预后预测模型,并利用验证集Ddev对基预后预测模型进行验证评估,将得到的评估值和基预后预测模型存入基预后预测模型池Pool,其中,以训练数据集Dtrain中预测对象的基础信息、临床数据以及术后癌症分期作为输入数据,以预后情况作为学习标签对有监督分类算法进行优化学习,以构建基预后预测模型;
(4)根据步骤(3)得到的预后预测模型,选择查询策略从训练数据池Dpool中主动采样包含信息最多的Nbatch个样本,将这Nbatch个样本添加到训练数据集Dtrain中,并从训练数据池Dpool中移除Nbatch个样本;
(5)根据步骤(4)得到的新训练数据集Dtrain、训练数据池Dpool和验证集Ddev,重复步骤(3)和步骤(4),直到训练数据池Dpool中的样本不足Nbatch个为止;
(6)从步骤(5)迭代结束后得到的基预后预测模型池Pool中选择Nens个评估值最高的基预后预测模型,用于构建集成预后预测模型;
(7)根据步骤(1)得到的训练数据池Dpool,重复步骤(2)重新采样得到新训练数据集Dtrain,并重复步骤(3)到步骤(6)T次;
(8)从步骤(1)得到的K个子集中选取1个未做过验证集的子集作为新的验证集Ddev,其余子集合并成新的训练数据池Dpool,根据新的验证集Ddev、新的训练数据池Dpool,重复步骤(2)到(7)K次,最终得到K×T×Nens个基预后预测模型,将这些预后预测模型的平均作为集成预后预测模型。
2.如权利要求1所述的非小细胞肺癌集成预后预测模型的构建方法,其特征在于,步骤(1)中,采用分层K折交叉验机制来进行数据分割。
3.如权利要求1所述的非小细胞肺癌集成预后预测模型的构建方法,其特征在于,步骤(3)中,采用的有监督分类算法包括支持向量机、神经网络、逻辑回归、决策树、朴素贝叶斯。
4.如权利要求1所述的非小细胞肺癌集成预后预测模型的构建方法,其特征在于,步骤(4)中,采用的查询策略包括基于不确定度的查询策略、基于不一致的查询策略、基于信息密度的查询策略。
5.如权利要求1所述的非小细胞肺癌集成预后预测模型的构建方法,其特征在于,步骤(8)中,采用不同的随机种子采集子集作为验证集,确保得到的新验证集和新训练数据池与原始验证集和训练数据池不同。
6.一种非小细胞肺癌集成预后预测模型的构建装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下权利要求1~5任一项所述的非小细胞肺癌集成预后预测模型的构建方法。
7.一种非小细胞肺癌集成预后预测方法,其特征在于,所述非小细胞肺癌集成预后预测方法采用权利要求1所述的方法构建的非小细胞肺癌集成预后预测模型进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110500821.1/1.html,转载请声明来源钻瓜专利网。