[发明专利]一种基于新一代测序数据的Indel检测方法有效
申请号: | 201710377194.0 | 申请日: | 2017-05-25 |
公开(公告)号: | CN107229839B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 袁细国;许向彦;杨利英;张军英;白俊 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B20/20;G16B40/00 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 新一代 序数 indel 检测 方法 | ||
本发明属于基因工程技术领域,公开了一种基于新一代测序数据的Indel检测方法,包括:利用bwa比对软件对原始的fastq数据做比对,生成sam文件;对二维点根据设定的阈值进行层次聚类;对hang.sam文件中的每一对reads,取出未正常比对的read;将read和截取下来的参考序列做比对即可确定变异类型,变异位置,以及变异大小;利用哈希结构来存储变异;对于某个变异,根据测序的覆盖度设置阈值。本发明通过聚类确定一个变异的范围,提取Split read与变异范围内的参考序列进行比对,使得比对的过程变得简单、范围更加精确;使用层次聚类,突破提前设置聚类个数的限制,操作简单。
技术领域
本发明属于基因工程技术领域,尤其涉及一种基于新一代测序数据的Indel检测方法。
背景技术
新一代测序是一种测序DNA序列的技术。在测序过程中,将完整的样本DNA序列打碎,从中筛选出满足特定长度(通常为数百bp)的片段,在每个片段的一端或两端各读取一段长度为数十至数百bp的序列。读取出的序列长度通常远远小于被测样本DNA序列的长度,但是新一代测序技术可以同时读取大量这样的短序列,使得全部短序列的总长度达到样本DNA长度的数倍至数十倍,从而使获得样本DNA序列成为可能。Indel(insertion anddeletion)变异是基因组中的一种重要的变异现象。主要表现为插入和删除两种状态,并且与人类的疾病发生相关。目前主要有4种检测基因组上INDEL变异的策略,分别为:(1)Readpair(也称为Pair-end Mapping,简称PEM,双端映射);(2)Split read(简称SR):分离读段。Splitread是一类特殊的read,其出现通常是由基因组中的结构变异造成的。这类read在映射中不再保持连续序列的形式,而是包含了一定长度的空位,因此具有较高的映射难度;(3)Read Depth(简称RD,读段覆盖深度)和(4)基于de novo组装的方法。(PEM)将Pair-end reads比对到参考序列上,若某一对reads插入长度小于映射长度,则这一对reads可以确定一个删除(deletion);反之,若某一对reads插入长度大于映射长度,则可以确定一个插入(insertion);对于序列删除的检测,其所能检测的片段长度受插入片段长度的标准差(SD)所影响(这里的插入片段长度指的是测序之前在构建DNA测序文库阶段,所选取的经由超声波打断的DNA片段长度,这些片段也称之为测序片段,这是实验过程中的操作,并不是指基因组的变异),并且越大的序列删除越容易被检测到;对于序列插入的检测,长度只能在插入片段长度的范围内,并且最大长度也受限于测序的插入片段长度的标准差;这种检测方法的缺点是检测到的变异位置不够精确,不能达到bp级。SR首先提取具有以下特点的pair-endreads,一条正常比对到参考序列上,另外一条不能比对,然后利用正常比对的read位置和插入长度确定一个查找范围,在这个范围内寻找未比对上的read与参考序列的最佳匹配,通过最佳匹配点把未匹配的read分割成两段或者三段,从而确定deletion和insertion的位置;Pindel是一个使用SR方法进行变异检测的软件。它在千人基因组计划和生物信息分析人员中被广泛使用。Pindel理论上能够检测所有长度范围内的deletion,和小片段的insertion。Pindel方法的一个优势在于它们能够精确到单碱基,但是在变异区域内若存在重复序列,Pindel有可能会遗漏掉这些变异。RD通过samtools可以测得各位点的覆盖度,将测序reads比对到参考序列上,若某一段的覆盖深度低于平均覆盖深度很多,则可以确定这一段是一个deletion;缺点在于只能检测deletion,而不能检测insertion,并且检测位置也不够精确。de novo assembly的方法能够提供对于longinsertion的最好检测方法,但是组装仍然是一件棘手的事情,基因组上所存在的重复性序列会严重影响组装的质量,也在很大程度上阻碍了利用组装的方法在基因组变异检测方面的应用。
综上所述,现有技术存在的问题是:现有检测方法存在检测位置不精确;变异区域遇到重复序列容易遗漏;只依靠一条比对上的read和插入长度确定一个检测范围也容易造成变异检测的遗漏。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710377194.0/2.html,转载请声明来源钻瓜专利网。