[发明专利]一种面向基因表达与甲基化数据的融合方法有效
申请号: | 201711204711.0 | 申请日: | 2017-11-27 |
公开(公告)号: | CN107967410B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 凡时财;鲁文斌;邹见效;徐红兵 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G16B50/00 | 分类号: | G16B50/00;G16B40/00;G16B25/10 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 基因 表达 甲基化 数据 融合 方法 | ||
本发明公开了一种面向基因表达与甲基化数据的融合方法,先从癌症基因组图谱数据库中获取某癌症的基因表达数据和450K芯片测得的DNA甲基化数据,然后分别对基因表达数据和DNA甲基化数据进行预处理,得到各自的差异基因,然后对两种差异基因求交集,得到交叠基因,最后通过David在线工具对交叠基因的通路进行分析,在显著富集通路里找出与癌症、免疫相关的通路,用于DNA甲基化数据的扩展,从而获得更多数量的全基因组CpG位点。
技术领域
本发明属于生物多组学数据的融合技术领域,更为具体地讲,涉及一种面向基因表达与甲基化数据的融合方法。
背景技术
基于单一组学数据的信息挖掘方法较难系统全面地理解疾病的产生和发展过程,融合多组学数据对癌症的发生、发展过程进行研究,可以避免单一组学数据的片面性,它不仅对疾病机理研究、确定致病靶点起到推动作用,也为疾病基础科学和精准医学研究提供了新的思路。
目前对于基因表达数据以及DNA甲基化数据的融合分析,主要基于450K甲基化芯片的数据。由于450K芯片数据仅覆盖了人类全基因组CpG位点的2%,融合的分析结果很可能不可靠。
因此,基于具有更大覆盖范围的DNA甲基化数据进行融合分析具有重要意义。
发明内容
本发明的目的在于克服现有技术的不足,提供一种面向基因表达与甲基化数据的融合方法,通过基因表达数据和DNA甲基化数据的融合,可以更全面地找到相关癌症基因,提供更可靠的诊断和治疗癌症的指导。
为实现上述发明目的,本发明一种面向基因表达与甲基化数据的融合方法,其特征在于,包括以下步骤:
(1)、数据的获取
从癌症基因组图谱数据库中获取多种癌症的基因表达数据和450K芯片测得的DNA甲基化数据;
(2)、DNA甲基化数据的处理
(2.1)、DNA甲基化数据的预处理:将DNA甲基化数据中存在缺失值的CpG位点删除;
(2.2)、DNA甲基化数据的扩展:利用logistic回归模型对步骤(2.1)处理后的DNA甲基化数据进行了扩展,得到DNA甲基化图谱数据;
(2.3)、单个CpG位点甲基化数据的t假设检验
(2.3.1)、计算t假设检验后的每一个CpG位点的极值概率gm
设DNA甲基化图谱数据中有n1个正常样本数据和n2个癌症样本数据,那么某一个CpG位点p*在n1个正常样本数据中的甲基化水平为W1,其均值为在n2个癌症样本数据中的甲基化水平为W2,其均值为对应的正态分布参数分别为和其中,μ1、μ2分别表示设定的正常样本数据的均值和设定的癌症样本数据的均值,分别表示设定的正常样本数据的方差和设定癌症样本数据的方差;
设两类样本方差相等,即构造假设检验统计量S*,其中,n为DNA甲基化图谱数据总个数;
给定显著性水平α,求出t假设检验后的每一个CpG位点的极值概率gm:k表示DNA甲基化图谱数据中CpG位点总个数;
(2.3.2)、判断每一个CpG位点是否是差异甲基化位点
如果则该CpG位点p*在n1个正常样本数据和n2个癌症样本数据中存在显著性差异,即判定该CpG位点p*是差异甲基化位点,依次类推,得到所有的差异甲基化位点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711204711.0/2.html,转载请声明来源钻瓜专利网。