[发明专利]淋巴结转移预测模型构建与训练方法、装置、设备和介质在审
申请号: | 202110406089.1 | 申请日: | 2021-04-15 |
公开(公告)号: | CN113113150A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 陈万涛;张瑱;邹欣;曹巍 | 申请(专利权)人: | 上海交通大学医学院附属第九人民医院 |
主分类号: | G16H50/50 | 分类号: | G16H50/50;G16H50/20;G16B30/00;G06N20/00 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李治东 |
地址: | 200011 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 淋巴结 转移 预测 模型 构建 训练 方法 装置 设备 介质 | ||
1.一种淋巴结转移预测模型构建与训练方法,其特征在于,所述方法包括:
S1、分别获取多个转录组样本测序数据或多个miRNA样本测序数据,并从中筛选出m个转录组标记物或n个miRNA标记物;
S2、根据留一交叉验证法选取1个转录组/miRNA样本测序数据为测试集,剩余的转录组/miRNA样本测序数据为训练集,同时判断每个样本测序数据是否发生淋巴结转移以计算二值化的第一转移值矩阵;
S3、对训练集中每个标记物的表达量以及第一转移值矩阵中各转移值进行去均值的归一化处理,以得到训练集表达量矩阵、测试集表达量矩阵、及第二转移值矩阵;
S4、利用训练集表达量矩阵和第二转移值矩阵进行偏最小二乘回归模型的建立,并基于偏最小二乘的结果中提取的loading值,得到训练集score值和测试集score值;
S5、利用训练集score值和第一转移值矩阵进行逻辑回归模型的建立,并将测试集score值作为预测结果,得到测试集的逻辑回归预测值;
S6、返回步骤S2重新选取转录组/miRNA样本测序数据为测试集,直至获得所有转录组/miRNA样本测试数据作为测试集所对应的逻辑回归预测值,以供完成淋巴结转移预测模型的训练。
2.根据权利要求1所述的方法,其特征在于,在筛选出标记物后,且在划分测序集之前,从全部转录组样本测序数据与全部miRNA样本测序数据中选取二者基于同一样本数据进行测序的转录组样本测序数据miRNA样本测序数据。
3.根据权利要求1所述的方法,其特征在于,建立偏最小二乘回归模型后,分别提取对应转录组水平的组分数量或特征数,以及对应miRNA水平的组分数量或特征数。
4.根据权利要求1所述的方法,其特征在于,所述判断每个样本测序数据是否发生淋巴结转移以计算二值化的第一转移值矩阵,包括:
依据临床信息判断样本测序数据是否发生淋巴结转移;
定义发生淋巴结转移为1,不发生淋巴结转移为0,以此计算表征样本测序数据是否发生淋巴结转移的二值化的第一转移值矩阵。
5.根据权利要求1所述的方法,其特征在于,所述对训练集中每个标记物的表达量以及第一转移值矩阵中各转移值进行去均值的归一化处理,以得到训练集表达量矩阵、测试集表达量矩阵、及第二转移值矩阵,包括:
计算训练集中每个标记物的表达量的表达量平均值,将训练集中每个标记物的表达量减去表达量平均值以得到归一化处理后的训练集表达量矩阵;
将测试集中标记物的表达量减去表达量平均值以得到归一化处理后的测试集表达量矩阵;
计算第一转移值矩阵中全部转移值的转移平均值,将第一转移值矩阵中各转移值减去转移平均值以得到归一化处理后的第二转移值矩阵。
6.根据权利要求1所述的方法,其特征在于,所述loading值用于描述区分转移不转移的贡献大小。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算各逻辑回归预测值与转录组/miRNA样本测序数据对应临床信息中的真实值的AUC值,以供对淋巴结转移预测模型的训练结果进行验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学医学院附属第九人民医院,未经上海交通大学医学院附属第九人民医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110406089.1/1.html,转载请声明来源钻瓜专利网。