[发明专利]一种基于基因组分析的癌症分期预测系统有效

专利信息
申请号: 202010003411.1 申请日: 2020-01-03
公开(公告)号: CN111180009B 公开(公告)日: 2023-04-28
发明(设计)人: 张海霞;李芳君;袁东风 申请(专利权)人: 山东大学
主分类号: G16B20/00 分类号: G16B20/00;G16B40/00
代理公司: 济南金迪知识产权代理有限公司 37219 代理人: 许德山
地址: 250199 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 基因组 分析 癌症 分期 预测 系统
【权利要求书】:

1.一种基于基因组分析的癌症分期预测系统,其特征在于,包括依次连接的原始数据采集单元、组合特征预处理单元、联合基因选择单元、分类模型创建单元、预测单元;

所述原始数据采集单元用于:获取癌症基因组图谱TCGA项目对应癌症亚型样本的RNAseq表达数据及临床信息,获取其中基因表达的RSEM值,具有I期和II期注释的样本被认为是早期癌症,其余具有III期和IV期注释的样本为晚期癌症;

所述组合特征预处理单元用于:通过ChiMerge分箱和WOE编码来离散化遗传特征即RNAseq表达数据;或者,所述组合特征预处理单元用于:使用log2转换RSEM值,并标准化log2转换后的RSEM值;

所述联合基因选择单元用于:依次进行FCBF搜索、联合统计特征提取、logistic回归模型特征选择;

所述分类模型创建单元用于:使用五种机器学习方法包括支持向量机、逻辑回归、多层感知、随机森林和朴素贝叶斯来生成分类模型,并优化其性能;

所述预测单元用于:训练好分类模型后,保存分类模型,预测时,输入预处理后的待测试样本的RNAseq表达数据,直接调取预测结果0或1,0表示预测为早期癌症,1表示预测为晚期癌症。

2.根据权利要求1所述的一种基于基因组分析的癌症分期预测系统,其特征在于,使用log2转换RSEM值,并标准化log2转换后的RSEM值,是指:

通过式(Ⅰ)使用log2转换RSEM值:

x=log2(RSEM+1)    (Ⅰ)

通过式(Ⅱ)标准化log2转换后的RSEM值,得到z:

式(Ⅱ)中,x是RSEM值经过对对数化后的值,是x的均值,s为标准差。

3.根据权利要求1所述的一种基于基因组分析的癌症分期预测系统,其特征在于,对原始训练数据进行FCBF搜索,原始训练数据是指RSEM值,包括:

(1)采用随机抽样的方法选取原始训练数据中80%的数据作为训练数据集,在十次十折交叉验证实验中,每次将训练数据随机分为十折,对训练数据集进行FCBF搜索,每次FCBF搜索十折交叉采样,得到10个子特征集;

(2)选取重叠数大于6的特征进行数据预处理和联合特征选择;

步骤(1)进行了十次十折交叉验证,每一次都会产生一个特征集,将这十个特征集合并,从中选取基因特征,基因特征是指RNA;

数据预处理是指通过ChiMerge分箱和WOE编码来离散化RNA;

联合特征选择是指通过合并FCBF算法、IV、VIF,基于逻辑回归进行特征选择。

4.根据权利要求3所述的一种基于基因组分析的癌症分期预测系统,其特征在于,联合统计特征提取,包括:

A、单变量分析:即剔除信息值IV≤1的变量;

每一个ChiMerge分箱和WOE编码后的基因都按照公式(III)计算出其信息值IV,如式(III)所示:

式(III)中,Gi是第i箱中I期和II期注释的样本占所有早期样本的比例,Bi是第i箱中III期和IV期注释的样本占所有晚期样本的比例;早期样本中的样本对应病人属于早期癌症,晚期样本中的样本对应病人属于癌症晚期;

B、多变量分析:用方差膨胀因子衡量多变量之间的线性相关性;

采用方差膨胀因子VIF评价多元线性相关关系,当计算的方差膨胀因子VIF小于10,不存在共线性问题,否则,存在共线性问题;

Ri是xi对应{x1,x2,...,xi-1,xi+1,xi+2,...,xN}的R2值;x1,x2,...,xi-1,xi+1,xi+2,...,xN是指特征集合中的N个特征;xi是指特征集合中的第i个特征,VIFi是指第i个特征xi的方差膨胀因子。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010003411.1/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top