[发明专利]一种基于二代测序数据的反转相关复杂变异检测方法有效
申请号: | 202010081979.5 | 申请日: | 2020-02-06 |
公开(公告)号: | CN111261225B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 杨晓飞;卜楠;叶凯;蔺佳栋;梁皓;郭立 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B30/10 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 李晓晓 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 二代 序数 反转 相关 复杂 变异 检测 方法 | ||
一种基于二代测序数据的反转相关复杂变异检测方法,在滑动窗口内,根据给定的bam文件与选定的参考基因组进行比对,得到Read Pair信号,并以Read Pair信号对不能完全匹配的Read进行Split Read信号分析,得到对应的断点匹配情况;建立Split Read信号理论模型;将断点匹配情况经过建立的模型,如果符合某个模型时,记录下相应的变异类型和位置,再判断是否是可信的变异。本发明根据理论信号建立了变异模型信号,因此可以很准确地提出变异类型;本发明使用Split Read信号,以模式增长算法寻找字符串的最大最小唯一子串,所以能够很精确地指出变异的位置信息。
技术领域
本发明属于基于二代测序数据的变异检测方法,涉及一种基于二代测序数据的反转相关复杂变异检测方法。
背景技术
与人类参考基因组(reference)相比,每个人的基因组都会存在一定的不同,这些不同被称为变异。变异因大小不同可以分为SNP(single nucleotide polymorphism)和结构变异(structural variants)。
不同人体中广泛存在着各种类型的结构变异(structural variants),其中简单变异主要分为删除(deletion)、插入(insertion)、重复(duplication)和反转(inversion)等类型。其中与本发明相关的删除(deletion)指的是与参考基因组相比缺少了一段本该有的基因,重复(duplication)指的是与参考基因组相比将某一段基因多复制了一次或者几次,反转(inversion)指的是与参考基因组相比将某一段基因的方向颠倒了。这些结构变异(structural variants)中,有些就目前已知信息评估尚不明确与什么相关,有些是与疾病有直接或者间接关系,例如小儿常见的猫叫综合征是由于删除(deletion)造成,甲型血友病与反转(inversion)相关。
DNA序列由A、G、C、T四种碱基组成,测序得到的Read实际上就是通过仪器得到由这四种碱基组成的一条一定长度的字符串,以成对的、朝向相反并且有一定范围距离的形式存在可读的bam文件中。由于测序技术的发展,Read长度从早年的十几bp发展到一百多甚至两百多bp,想把不同人的很多条Read和数量级为三十亿的参考基因组(reference)进行对比找到相符合的位置,在算法层面来看难度其实是相当高的。
目前以二代测序数据为基础检测变异的方法很多,主要使用的信号有Assembly、Read Pair、Read Depth和Split Read信号等。其中,Assembly通过将bam文件中的read进行组装重新比对得到相应的信息;Read Pair信号指的是在bam文件中每对read之间的距离信息与方向信息,即Insert Size和Pair Orientation信息,能够反应出一些较大的结构变异(structural variants)的相关信息;Read Depth信号指每个参考基因组位点上覆盖的Read的数量信息,能够较为明显地体现某个区域中Read数量会有明显变化的变异,例如删除(deletion)和重复(duplication)等;Split Read信号指在bam文件中每对read中有一个不能完全比对到参考基因组时,将其分成两部分或者以上与参考基因组进行比对的位点信息,能够较为精确地体现变异的断点信息。通常,变异检测工具使用其中一种或者结合多种信息来检测变异。
目前,业界已经发现了反转(inversion)的及其相关复杂变异检测结果中变异类型错误、断点不准确甚至完全无法检测的问题,并针对此进行了相关的科学研究和算法开发,但国内外检测反转(inversion)及其相关复杂变异的工具较少,目前只有以下几种:
1)Gridss:此方法的亮点在于使用了Assembly来进行重比对,因此可以较为精确地报出断点,但是它的缺点也较为明显,它只能报出断点而无法明确地报出变异类型,必须要通过三代数据或者其他相关辅助手段才能进行变异类型的确认。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010081979.5/2.html,转载请声明来源钻瓜专利网。