[发明专利]一种面向基因表达与甲基化数据的融合方法有效
申请号: | 201711204711.0 | 申请日: | 2017-11-27 |
公开(公告)号: | CN107967410B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 凡时财;鲁文斌;邹见效;徐红兵 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G16B50/00 | 分类号: | G16B50/00;G16B40/00;G16B25/10 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 基因 表达 甲基化 数据 融合 方法 | ||
1.一种面向基因表达与甲基化数据的融合方法,其特征在于,包括以下步骤:
(1)、数据的获取
从癌症基因组图谱数据库中获取多种癌症的基因表达数据和450K芯片测得的DNA甲基化数据;
(2)、DNA甲基化数据的处理
(2.1)、DNA甲基化数据的预处理:将DNA甲基化数据中存在缺失值的CpG位点删除;
(2.2)、DNA甲基化数据的扩展:利用logistic回归模型对步骤(2.1)处理后的DNA甲基化数据进行了扩展,得到DNA甲基化图谱数据,得到DNA甲基化图谱数据;
(2.3)、单个CpG位点甲基化数据的t假设检验
(2.3.1)、计算t假设检验后的每一个CpG位点的极值概率gm
设DNA甲基化图谱数据中有n1个正常样本数据和n2个癌症样本数据,那么某一个CpG位点p*在n1个正常样本数据中的甲基化水平为W1,其均值为在n2个癌症样本数据中的甲基化水平为W2,其均值为对应的正态分布参数分别为和其中,μ1、μ2分别表示n1个正常样本数据的均值和n2个癌症样本数据的均值,分别表示n1个正常样本数据的方差和n2个癌症样本数据的方差;
设两类样本方差相等,即构造假设检验统计量S*,其中,n为DNA甲基化图谱数据总个数;
给定显著性水平α,求出t假设检验后的每一个CpG位点的极值概率gm:P{·}表示求极值概率,m=1,2,…,k,k表示DNA甲基化图谱数据中CpG位点总个数;
(2.3.2)、判断每一个CpG位点是否是差异甲基化位点
如果则该CpG位点p*在n1个正常样本数据和n2个癌症样本数据中存在显著性差异,即判定该CpG位点p*是差异甲基化位点,依次类推,得到所有的差异甲基化位点;
(2.4)、对所有的DNA甲基化位点进行联合费雪检验
给定显著性水平α1,同时确定差异甲基化位点在整个基因启动子区的分布情况;
将t假设检验后的每一个CpG位点的极值概率gm利用如下公式进行综合评估,得到假设检验统计量
将假设检验统计量与α1比较,如果则判定该基因为差异基因;否则舍去;
(3)、基因表达数据的预处理
(3.1)、缺失值处理
在基因表达数据中,将存在缺失值的基因表达数据删除处理;
(3.2)、数据标准化
设步骤(3.1)处理后的基因表达数据为一n行p列的矩阵,表示为X=(xij)n×p,xij表示矩阵X的元素;
对矩阵X=(xij)n×p取对数处理,得到矩阵Yij=log2xij,i=1,2,…,n,j=1,2,…,p-1;
(3.3)、基因表达数据的特征选择
对矩阵Yij中每一列作t假设检验:以矩阵Yij的每一列为单位,对矩阵Yij中正常样本和癌症样本在每一列的平均数是否相等进行t假设检验,得到差异基因;
(4)、数据融合;
(4.1)、基因表达数据和DNA甲基化数据的融合
将步骤(2)得到的差异基因与通过步骤(3)得到的差异基因取交集,得到交叠基因;
(4.2)、基因通路分析
通过David在线工具对交叠基因的通路进行分析,在显著富集通路里找出与癌症、免疫相关的通路,用于DNA甲基化数据的扩展。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711204711.0/1.html,转载请声明来源钻瓜专利网。