[发明专利]一种基于基因组分析的癌症分期预测系统有效
申请号: | 202010003411.1 | 申请日: | 2020-01-03 |
公开(公告)号: | CN111180009B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 张海霞;李芳君;袁东风 | 申请(专利权)人: | 山东大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B40/00 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 基因组 分析 癌症 分期 预测 系统 | ||
1.一种基于基因组分析的癌症分期预测系统,其特征在于,包括依次连接的原始数据采集单元、组合特征预处理单元、联合基因选择单元、分类模型创建单元、预测单元;
所述原始数据采集单元用于:获取癌症基因组图谱TCGA项目对应癌症亚型样本的RNAseq表达数据及临床信息,获取其中基因表达的RSEM值,具有I期和II期注释的样本被认为是早期癌症,其余具有III期和IV期注释的样本为晚期癌症;
所述组合特征预处理单元用于:通过ChiMerge分箱和WOE编码来离散化遗传特征即RNAseq表达数据;或者,所述组合特征预处理单元用于:使用log2转换RSEM值,并标准化log2转换后的RSEM值;
所述联合基因选择单元用于:依次进行FCBF搜索、联合统计特征提取、logistic回归模型特征选择;
所述分类模型创建单元用于:使用五种机器学习方法包括支持向量机、逻辑回归、多层感知、随机森林和朴素贝叶斯来生成分类模型,并优化其性能;
所述预测单元用于:训练好分类模型后,保存分类模型,预测时,输入预处理后的待测试样本的RNAseq表达数据,直接调取预测结果0或1,0表示预测为早期癌症,1表示预测为晚期癌症。
2.根据权利要求1所述的一种基于基因组分析的癌症分期预测系统,其特征在于,使用log2转换RSEM值,并标准化log2转换后的RSEM值,是指:
通过式(Ⅰ)使用log2转换RSEM值:
x=log2(RSEM+1) (Ⅰ)
通过式(Ⅱ)标准化log2转换后的RSEM值,得到z:
式(Ⅱ)中,x是RSEM值经过对对数化后的值,是x的均值,s为标准差。
3.根据权利要求1所述的一种基于基因组分析的癌症分期预测系统,其特征在于,对原始训练数据进行FCBF搜索,原始训练数据是指RSEM值,包括:
(1)采用随机抽样的方法选取原始训练数据中80%的数据作为训练数据集,在十次十折交叉验证实验中,每次将训练数据随机分为十折,对训练数据集进行FCBF搜索,每次FCBF搜索十折交叉采样,得到10个子特征集;
(2)选取重叠数大于6的特征进行数据预处理和联合特征选择;
步骤(1)进行了十次十折交叉验证,每一次都会产生一个特征集,将这十个特征集合并,从中选取基因特征,基因特征是指RNA;
数据预处理是指通过ChiMerge分箱和WOE编码来离散化RNA;
联合特征选择是指通过合并FCBF算法、IV、VIF,基于逻辑回归进行特征选择。
4.根据权利要求3所述的一种基于基因组分析的癌症分期预测系统,其特征在于,联合统计特征提取,包括:
A、单变量分析:即剔除信息值IV≤1的变量;
每一个ChiMerge分箱和WOE编码后的基因都按照公式(III)计算出其信息值IV,如式(III)所示:
式(III)中,Gi是第i箱中I期和II期注释的样本占所有早期样本的比例,Bi是第i箱中III期和IV期注释的样本占所有晚期样本的比例;早期样本中的样本对应病人属于早期癌症,晚期样本中的样本对应病人属于癌症晚期;
B、多变量分析:用方差膨胀因子衡量多变量之间的线性相关性;
采用方差膨胀因子VIF评价多元线性相关关系,当计算的方差膨胀因子VIF小于10,不存在共线性问题,否则,存在共线性问题;
Ri是xi对应{x1,x2,...,xi-1,xi+1,xi+2,...,xN}的R2值;x1,x2,...,xi-1,xi+1,xi+2,...,xN是指特征集合中的N个特征;xi是指特征集合中的第i个特征,VIFi是指第i个特征xi的方差膨胀因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010003411.1/1.html,转载请声明来源钻瓜专利网。