[发明专利]一种癌症驱动基因识别方法及系统在审
申请号: | 202211240155.3 | 申请日: | 2022-10-11 |
公开(公告)号: | CN115762631A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 魏丕静;周舒利;郑春厚;苏延森 | 申请(专利权)人: | 安徽大学 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B20/50;G16B40/00;G06F18/25;G06N20/20;G06F18/2415;G06F18/2411;G06F18/2431 |
代理公司: | 合肥市长远专利代理事务所(普通合伙) 34119 | 代理人: | 黄亚厚 |
地址: | 230000 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 癌症 驱动 基因 识别 方法 系统 | ||
1.一种癌症驱动基因识别方法,其特征在于,包括以下步骤:
S1、收集正常样本与肿瘤样本的多组学数据,计算出组学特征值和网络结构特征值,所述组学特征值包括差异表达值、差异甲基化值、基因突变频率值、蛋白质-蛋白质相互作用网络数据;
S2、将处理后的组学特征值和网络结构特征值进行拼接,构建新的融合特征;另外使用集成学习的方法建立模型,使用序列前向选择策略对模型的第一层分类器进行筛选,第二层分类器采用逻辑回归对第一层分类器的结果赋予权重;
S3、将新的融合特征输入到第一层的分类器,获得对应数量的分类器的预测概率;
S4、将第一层的所有分类器的预测概率拼接后作为特征输入第二层的逻辑回归分类器进行拟合,最终模型输出表示基因成为驱动基因的概率。
2.根据权利要求1所述的一种癌症驱动基因识别方法,其特征在于,所述多组学数据包括差异表达值、差异甲基化值、基因突变频率和蛋白质-蛋白质相互作用网络数据;其中基因表达、DNA甲基化和基因突变数据来自TCGA数据库,蛋白质-蛋白质相互作用网络数据来自Consensus Path DB数据库。
3.根据权利要求1所述的一种癌症驱动基因识别方法,其特征在于,在正常样本和肿瘤样本中,只有同时具有可用基因表达数据值或DNA甲基化值的癌症类型的多组学数据被保留并使用,具体包括8000多个正常样本和16种不同癌症类型的肿瘤样本。
4.根据权利要求1所述的一种癌症驱动基因识别方法,其特征在于,差异表达值被准确测量为肿瘤表达与配对的正常样本表达之间的log2fold变化,然后在样本中取平均值;所述基因突变频率值为在特定癌症类型的所有样本中观察到的单核苷酸变异和拷贝数变异的平均值,拷贝数变异包括扩增变异和缺失变异。
5.根据权利要求1所述的一种癌症驱动基因识别方法,其特征在于,计算差异甲基化值由所有肿瘤样本和正常样本的甲基化信号的平均值确定,具体计算利用公式(1)计算得:
其中,表示第c种癌症中基因i差异DNA甲基化值,和分别是癌变样本和配对的正常样本中的甲基化信号,Sc代表一种癌症的样本集。
6.根据权利要求1所述的一种癌症驱动基因识别方法,其特征在于,网络结构特征值通过蛋白质-蛋白质相互作用网络数据计算获得,MTGCN中使用的蛋白质-蛋白质相互作用网络数据是从Consensus Path DB数据库中收集的,在消除分数小于0.5的交互之后,获得了一个具有13,627个节点和504,378条边的网络,接着利用深度游走算法获取网络结构特征值,深度游走公式为:
其中,ci-1=v表示当前节点;ci=x表示下一个要到达的节点;其中Nv表示节点v的邻居节点,|Nv|表示Nv的数量。
7.根据权利要求1所述的一种癌症驱动基因识别方法,其特征在于,构建新的融合特征的具体步骤如下:
SA21、将步骤S1中计算得到的差异表达值、差异甲基化值、基因突变频率值后,将每个基因分配到一个N*y维向量,其中N表示基因的数量,y表示组学类型,即差异表达、差异甲基化、基因突变频率;
SA22、将N*3维向量连接起来,形成一个N行48列的泛癌矩阵,在连接不同尺度的不同矩阵前,进行最小-最大归一化;
SA23、将N行48列的泛癌矩阵和16维的网络结构特征值矩阵直接左右拼接,得到每个基因的融合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211240155.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种管材下料设备
- 下一篇:通信网络故障处理方法、装置,及电子设备