[发明专利]一种基于基因组环境确定遗传变异功能影响的方法在审
申请号: | 201710073691.1 | 申请日: | 2017-02-10 |
公开(公告)号: | CN106778068A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 高歌;程斯进 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 北京北翔知识产权代理有限公司11285 | 代理人: | 张广育,姜建成 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 基因组 环境 确定 遗传 变异 功能 影响 方法 | ||
技术领域
本发明涉及生物信息学领域,更具体地涉及一种基于基因组环境确定遗传变异功能影响的方法。
背景技术
随着以深度测序为代表的高通量遗传变异检测技术的快速发展,目前已可以快速鉴定个体基因组上的遗传变异。然而,如何准确确定这些遗传变异对生物分子功能的影响,从而为后续的个性化医疗、分子育种等应用提供线索、指导与支持,仍是目前该领域面临的重大挑战。
目前在变异注释领域常用的方法(例如,VEP[1]、ANNOVAR[2])通常是以变异为单位,基于参考基因模型(reference gene model)独立处理每个变异产生的影响。显然,这种假定每个变异独立工作产生影响的做法忽略了变异所在的基因组环境,是不符合生物学实际情况的。大规模人群基因型数据的分析结果显示,有大量的变异影响被这种独立处理每个变异的注释方法错误处理。
另外,在生物学通路水平,目前的注释方法(例如,DAVID[3])仍然是以富集分析为主,其利用统计显著性检验方法,根据用户提交的大量受变异影响的基因列表中找出在某些通路中显著富集的结果。然而,统计检验分析旨在找出那些被变异显著影响的生物学通路,并不能准确直接地指出变异对生物学通路的具体影响。
因此,需要有克服上述缺陷的准确确定遗传变异对生物分子功能的影响的方法。
发明内容
本发明针对上述缺陷,提供了一种基于基因组环境确定遗传变异影响的方法,所述方法以每个基因为单位注释该基因上所有变异共同的影响,其包括:1)将所有变异根据其坐标位置映射到给定基因模型的各个基因上;2)根据各基因上的所有变异重构出各基因的个体化序列;3)对所得个体化序列进行分析以得到变异对该基因的影响。
本发明还提供了一种基于基因组环境确定遗传变异对生物学通路影响的方法,所述方法包括如下步骤:1)将基因/蛋白相互作用通路抽象成有向无环图;2)删除功能缺失基因对应的图节点以及相应的边;3)找出因节点删除造成的最远的不连通路径。
本发明的方法充分考虑了变异所在的基因组环境,避免了大量的注释错误,提高了注释变异影响的准确性。
附图说明
图1示出了使用本发明方法对蛋白编码基因进行注释的流程图。
图2示出了使用本发明方法确定变异对基因CHD7影响的结果。
图3示出了使用本发明方法重新分析1000基因组的基因组数据的结果。
图4示出了使用本发明方法对转录因子结合位点进行注释的流程图。
图5示出了使用本发明方法确定变异对转录因子结合位点TFAP2结合位点影响的结果。
图6示出了利用1000基因组和GTEx项目的基因组数据对TFBS注释冲突进行具体分析的结果。
图7示出了使用本发明方法对microRNA进行注释的流程图。
图8示出了使用本发明方法所证明的SNP rs56301829与SNP rs2276448变异不会导致microRNA MIMAT0027683失去对基因ZNF716的调控的示意图。
图9示出了利用1000基因组数据分析来自TargetScan和miRanda的转录因子结合点上的互补突变的结果。
图10示出了使用本发明的方法确定变异对生物学通路的影响的一般性流程图。
具体实施方式
如上所述,本发明提供了一种基于基因组环境确定遗传变异功能影响的方法,所述方法以每个基因为单位注释该基因上所有变异共同的影响,其包括:1)将所有变异根据其坐标位置映射到给定基因模型的各个基因上;2)根据各基因上的所有变异重构出各基因的个体化序列;3)对所得个体化序列进行分析以得到变异对该基因的影响。
在本发明的方法中,术语“给定基因模型”是指用户指定的一套完整的基于参考基因组的基因结构描述,包括基因中可变剪切转录本外显子、内含子在参考基因组上的坐标。
在本发明的方法中,术语“个体化序列”是指根据个人基因型得到的个体基因组中的真实序列。
在一个实施方案中,所述基因为蛋白编码基因。在一个具体的实施方案中,所述蛋白编码基因为CHD7。在蛋白编码基因的情况下,本发明方法的步骤2)通过根据各个基因上的所有变异推断该基因的蛋白编码区,并将其翻译成蛋白序列来进行,并且步骤3)通过将所得蛋白序列与已知的参考蛋白序列比较来进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710073691.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用