[发明专利]一种利用全基因组数据挖掘甲基化模式的方法在审
申请号: | 201710409105.6 | 申请日: | 2017-06-02 |
公开(公告)号: | CN107301330A | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 杨利英;杨胜楠 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24;G06F19/20 |
代理公司: | 西安长和专利代理有限公司61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 基因组 数据 挖掘 甲基化 模式 方法 | ||
技术领域
本发明属于生物信息学的数据处理技术领域,尤其涉及一种利用全基因组数据挖掘甲基化模式的方法。
背景技术
随着高通量测序技术以及基因芯片技术的不断发展进步,可以得到高效海量的基因数据,基因数据蕴含着许多错综复杂的生命现象,使全面地探索疾病的遗传和表观遗传基础成为可能,为现代生命科学研究提供了新的方向和思路。然而海量数据并不能直观地揭示生命现象或者反映生物规律,必须使用复杂的统计方法和其他的一些手段和技术来分析探索海量数据蕴含的生物学现象。由此,衍生出了生物信息学科。生物信息学是一门生命科学和计算机科学相结合的新兴学科,研究生物信息的采集、处理、存储、传播、分析和解释等,通过综合利用生物学、计算机科学和信息技术来揭示复杂的生物数据所蕴藏的生物学奥秘。人类基因组实际上包含两类信息:遗传信息和表观遗传信息,由此催生了遗传学和表观遗传学。遗传学(Genetics)研究生物的遗传和变异,包括基因结构、功能变异及表达规律,即由DNA序列发生改变而产生的遗传信息;表观遗传学(Epigenetics)研究在核苷酸序列不发生改变的前提下,基因表达发生改变而导致的遗传。遗传和表观遗传是相对的概念,同时又相互依存共同构成人类的遗传信息。在胚胎形成和发展中DNA甲基化是至关重要的生命过程,也是最常见的表观遗传修饰之一。因此,作为表观遗传修饰重要组成部分的DNA甲基化也成为研究的重点,其在疾病的早期检测、预防、治疗、预后等取得了显著的成效。DNA甲基化是指在DNA甲基转移酶(DNMT)的催化下,以硫代蛋氨酸为甲基供体,在CpG二核苷酸胞嘧啶分子的5’碳原子上添加一个甲基基团的化学修饰。DNA甲基化能够导致某些基因失活以及某些区域DNA构象变化,进而影响DNA与蛋白质的相互作用,控制基因表达。DNA甲基化还可能引起基因组中相应区域染色质结构的改变,导致DNA失去核梅,限制性内切酶的切割位点,以及DNA酶的敏感位点,使染色质高度螺旋,凝缩成团,失去转录活性。通过分析甲基化水平与基因表达的关系发现,甲基化水平与基因表达程负相关,即低甲基化促进基因表达,而高甲基化抑制基因表达。同时大量研究表明,与正常细胞相比,疾病细胞中基因组整体甲基化水平偏低,但启动子局部区域异常高甲基化,这为利用甲基化水平检测疾病的发生提供了理论依据。同时某些基因可能在癌细胞或组织中存在肿瘤特异性甲基化的改变,基于此特性,可以将DNA甲基化作为疾病早期诊断的生物标记,分子标记可以进一步确定疾病的亚型,这对疾病的治疗非常重要;再者由于表观遗传的可逆性,临床上可以将DNA甲基化作为疾病治疗的新靶点,已有研究表明通过去甲基化药物处理体外培养的细胞,可以激活由于DNA甲基化改变而沉默的基因。测序技术和微阵列技术的限制,DNA甲基化数据非正态分布的统计特点以及高异质性的特点,DNA甲基化数据在基因组上的不均匀分布,不同组学数据的不同维度都对甲基化数据分析产生巨大挑战。DNA甲基化数据的来源主要通过芯片和测序技术,使用芯片可以获得多个样本的全基因组甲基化数据,可以统计地研究DNA甲基化在复杂疾病中的作用,但是其在基因组上的覆盖率较低,而且不如测序数据精确;测序数据成本高、耗时多、样本数量少,尽管覆盖率高且结果精确,但对于癌症研究存在一定限制;常用的差异分析方法如T检验,ANOVA等统计方法对数据分布都有一定的要求,并不适用于分析DNA甲基化数据,因此在识别DNA甲基化模式时,需要提出新的统计方法或测度;DNA甲基化和基因表达的维度不同,而且,一个基因包含多个甲基化位点,如何整合二者,也是研究人员面临的一大挑战。正是鉴于以上原因,当前,关于DNA甲基化模式的研究虽多,但大多数研究都是基于一种疾病或者单个基因及较小区域的DNA甲基化,很少是基于多种疾病的全基因组上的DNA甲基化模式的分析,致使多种疾病的DNA甲基化模式并不清晰,目前已发现的甲基化调控位点更是少之又少。
综上所述,现有技术存在的问题是:传统统计方法对数据的分布要求较高,即要求数据的分布是确定的,而实际甲基化数据的分布并不明确,所以传统的统计方法存在局限性;不同组学数据其维度不同,所以数据整合也是当前研究面临的挑战。
发明内容
针对现有技术存在的问题,本发明提供了一种利用全基因组数据挖掘甲基化模式的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710409105.6/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置