[发明专利]基于CAFs、WSIs和临床信息的三组学IDC预后模型建立方法及预后模型系统有效
申请号: | 202210651314.2 | 申请日: | 2022-06-10 |
公开(公告)号: | CN115346656B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 李晓平;林智权;邱天;黄晖 | 申请(专利权)人: | 江门市中心医院;五邑大学 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/30;G16H50/70 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 武君 |
地址: | 529030 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 cafs wsis 临床 信息 三组学 idc 预后 模型 建立 方法 系统 | ||
1.一种基于CAFs、WSIs和临床信息的三组学IDC预后模型建立方法,其特征在于,包含以下步骤:
数据获取步骤,获取IDC患者组学数据,所述IDC患者组学数据包含若干份IDC-CAFs基因数据、若干份WSI数据和若干份临床信息数据;
数据预处理步骤,对获取到的所述IDC患者组学数据进行预处理;
数据划分步骤,将预处理后的所述IDC患者组学数据划分为训练集和测试集;
数据训练步骤,基于三组学特征进行多因素cox回归建模,并通过划分好的训练集和测试集对模型进行训练。
2.根据权利要求1所述的基于CAFs、WSIs和临床信息的三组学IDC预后模型建立方法,其特征在于,
所述数据预处理步骤包含:
IDC-CAFs基因数据处理步骤:
从MSigDB中下载与fibroblast相关的57个基因集,分别将其与数据清洗后的IDC转录组基因集进行富集分析,保留p-value小于预设值的分析结果;
将符合的分析结果中的基因集进行数据合并,与IDC转录组基因集取重合部分,得到包含若干个CAF基因的数据集;
对数据集进行wilcox差异分析,保留与IDC相关的CAF差异基因;
对所述CAF差异基因进行单因素cox回归分析,保留p-value小于预设值的若干个CAF差异基因;
WSIs数据处理步骤:
将每份WSI按统一倍数放大,然后裁剪成若干tile子图片;
对每张裁剪的tile子图片进行方差检验,去除方差值小于预设值的tile子图片;
从每张tile子图片中提取m个人工特征变量,每份WSI得到对应的特征数组(m*n),n为裁剪数量;
根据显著性将每个特征数组(m*n)的不定长特征数组形状固定到50,特征数组为(m*50);
对每一个特征做均值化处理,得到特征数组(m*1);
临床信息数据处理步骤:
从所述临床信息数据选择若干临床特征。
3.根据权利要求2所述的基于CAFs、WSIs和临床信息的三组学IDC预后模型建立方法,其特征在于,
所述临床特征为淋巴结数和阳性淋巴结数。
4.根据权利要求2所述的基于CAFs、WSIs和临床信息的三组学IDC预后模型建立方法,其特征在于,
所述WSIs数据处理步骤还包括:
采用levene+T test组合技术将每个特征数组中的m个WSI人工特征变量筛选至a个,得到特征数组(a*1),a小于m;
采用lasso回归再将每个特征数组中的a个WSI人工特征变量筛选至b个,得到特征数组(b*1),b小于a。
5.根据权利要求1所述的基于CAFs、WSIs和临床信息的三组学IDC预后模型建立方法,其特征在于,
在所述数据划分步骤中,将生存时间小于1.5年和生存时间大于4年的数据划入训练集,其他作为测试集。
6.一种基于CAFs、WSIs和临床信息的三组学IDC预后模型系统,其特征在于,包含:
数据获取模块,用于获取IDC患者组学数据,所述IDC患者组学数据包含若干份IDC-CAFs基因数据、若干份WSI数据和若干份临床信息数据;
数据预处理模块,用户对获取到的所述IDC患者组学数据进行预处理;
数据划分模块,用于将预处理后的所述IDC患者组学数据划分为训练集和测试集;
数据训练模块,用于通过划分好的训练集和测试集对基于三组学特征进行多因素cox回归建模的模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江门市中心医院;五邑大学,未经江门市中心医院;五邑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210651314.2/1.html,转载请声明来源钻瓜专利网。