[发明专利]一种基于组织器官分化层次关系的癌症类型预测系统和方法有效
申请号: | 201910852801.3 | 申请日: | 2019-09-10 |
公开(公告)号: | CN110706749B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 李鹏;施巍炜;王凯 | 申请(专利权)人: | 至本医疗科技(上海)有限公司 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16H50/20 |
代理公司: | 上海胜康律师事务所 31263 | 代理人: | 李献忠;樊英如 |
地址: | 200120 上海市浦东新区(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 组织 器官 分化 层次 关系 癌症 类型 预测 系统 方法 | ||
1.一种基于组织器官分化层次关系的癌症类型预测系统,其特征在于,包括:
获取模块,用于获取多个癌症类型中的每种癌症的转录组基因表达量数据作为训练集;
组织器官分化层次关系定义模块,用于将不同的癌症类型按照组织器官分化关系分成第一等级和第二等级;
特征选取模块,用于基于所述组织器官分化层次关系进行特征选取,即对于每个等级的每种组织器官类型或癌症类型统称癌症类型,选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因,得到所选取的基因的每个的表达量的值作为特征值,基因表达量的值采用FPKM值;
归一化处理模块,用于对上述特征值进行归一化处理;
双层分类模型构建模块,用于将上述归一化处理的特征值输入机器学习算法以构建预测癌症类型的双层机器学习分类模型,即:对于第一等级而言构建出第一等级的分类模型;对于第二等级而言,分别构建出第二等级中每个等级癌症类型的分类模型;以及
检测模块,用于对待检测样本,经过转录组测序和生物信息分析,获得整个基因组所有基因表达量数据,并进行特征选取和归一化处理,将处理后的数据输入到所构建的所述双层机器学习分类模型中,首先预测出第一等级的结果,根据第一等级的预测结果选择对应的第二等级的分类模型,再利用第二等级的模型预测出待检测样本的癌症类型。
2.根据权利要求1所述的系统,其特征在于,所述获取模块从公共数据库获取所述转录组基因表达量数据,或者利用自己收集的样本经过转录组测序和生物信息分析获取所述转录组基因表达量数据。
3.根据权利要求2所述的系统,其特征在于,所述公共数据库包括TCGA数据库、ICGC数据库、CPTAC数据库和NCBI数据库。
4.根据权利要求2所述的系统,其特征在于,所述特征选取模块中,对于第一等级,选取用于第一等级分类的特征基因,即对于第一等级的不同器官系统,选取该种器官系统类型和训练集中其它所有器官系统类型相比较为差异表达基因并且是高表达的基因;对于第二等级的不同器官系统下的癌症类型,分别选取用于每种第二等级分类的特征基因,即选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因。
5.根据权利要求1所述的系统,其特征在于,所述特征选取模块进一步包括如下子模块:
计算子模块,用于计算每种癌症和其它每种癌症在每个基因上的配对比较的表达差异性的p值,并且对每种癌症类型遍历计算该癌症类型和训练集中其它所有癌症在每个基因表达量上的平均值的比值的log2转换值并进行排序;
基因选取子模块,用于选取所述p值范围为0≤p≤0.05之间的基因,并且在前述选取的基因中进一步选取所述log2转换值大于一定数值X的基因或者该值前N个基因,所述X的范围为X≥1,所述N的范围为N≥20。
6.根据权利要求5所述的系统,其特征在于,所述计算子模块,利用limma软件所包含的F检验方法计算所述p值。
7.根据权利要求1所述的系统,其特征在于,所述归一化处理模块进一步包括如下子模块:
转换子模块,用于将所述FPKM值取log2转换,公式为:
y=log2(x+1)
标准化子模块,用于对所述转换子模块转换后的FPKM值进行Z-score标准化,即标准差标准化,公式为:
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
8.根据权利要求1所述的系统,其特征在于,所述双层机器学习分类模型构建模块中,机器学习算法包括随机森林、人工神经网络、K最邻近或其组合。
9.根据权利要求1所述的系统,其特征在于,所述双层机器学习分类模型构建模块中进一步包括模型优化模块:
将所述基因表达量数据的样本分为训练集和测试集,用训练集进行训练、测试集进行测试,以进行交叉验证,从而获得最佳的模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于至本医疗科技(上海)有限公司,未经至本医疗科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910852801.3/1.html,转载请声明来源钻瓜专利网。