[发明专利]一种检测短串联重复序列扩张的方法有效
申请号: | 201810499329.5 | 申请日: | 2018-05-23 |
公开(公告)号: | CN108660200B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 杨旗;唐北沙;梁帆;江泓;杨帆;沈璐;汪德鹏 | 申请(专利权)人: | 北京希望组生物科技有限公司;中南大学湘雅医院 |
主分类号: | C12Q1/6869 | 分类号: | C12Q1/6869 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 陆惠中;王永伟 |
地址: | 102206 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检测 串联 重复 序列 扩张 方法 | ||
本发明提供了一种检测短串联重复序列扩张的方法,其包括如下步骤:1)序列比对;2)RepeatHMM检测三代测序数据短串联重复;3)inScan检测短串联重复区域的序列插入;4)计算RepeatHMM检测结果与短串联重复区域的序列插入检测结果的交集。本发明结合序列插入检测和RepeatHMM短串联重复检测结果,提高了检测短串联重复序列扩张的特异性。
技术领域
本发明属于基因测序技术领域,具体涉及短串联重复序列(STR,short tandemrepeat)扩张检测方法。
背景技术
短串联重复指DNA序列中的多个核苷酸(重复单元数目大于或等于2小于或等于6)前后首尾相连而构成的重复序列,重复单元数目的变化会对基因组结构造成重要影响,进而可能会影响基因的表达、修饰和相应的生理功能;短串联重复单元数目增多时称为短串联重复扩张。
三代测序指的是单条DNA/RNA分子测序技术,目前商用的三代测序技术有Pacbio公司的单分子实时测序技术和Nanopore公司的纳米孔测序技术。Pacbio公司的单分子实时测序技术测得的reads平均长度为10Kb,部分可以达到100kbp,Nanopore公司的纳米孔测序技术测得的reads平均长度也为10Kb,部分可以达到2.3Mbp。三代测序与二代测序相比的优势是读长更长、无GC偏好性,缺点是序列的错误率较高(约15%的错误率)。三代测序产生的长reads可以跨越短串联重复,从而准确检测重复单元的数目,同时可以检测二代测序无法检测的大尺度的短串联重复扩张(扩张长度大于二代测序的读长(100-300bp))。
现有用于三代测序检测短串联重复的方法是RepeatHMM(Liu,Q.,Zhang,P.,Wang,D.,Gu,W.Wang,K.Interrogating the“unsequenceable”genomic trinucleotide repeatdisorders by long-read sequencing.Genome Medicine,65(2017)),该方法主要应用隐马尔可夫模型进行短串联重复单元的识别。但是RepeatHMM在检测短串联重复扩张时存在较高的假阳性。该技术方案的主要步骤如下:
1)选择感兴趣的短串联重复:从参考基因组序列中选择感兴趣的短串联重复,记录该短串联重复在参考基因组上的位置(染色体编号、起始位置、终止位置)、重复单元(如:CGG)和重复单元数目;
2)将三代测序的长reads比对到参考基因组:首先使用TRF软件(tandem repeatfinder)检测长reads上是否存在步骤1)中预设的串联重复,如果存在就将长reads切割为多段侧翼区序列和重复区序列;然后使用bwa mem和特定参数将侧翼区的片段比对到参考基因组,如果这些有序的侧翼区序列都成功比对,那么利用这些比对信息确定长reads上重复区域的起始位置和终止位置。这种方式被定义为“切分-重比对”策略;对于“切分-重比对”策略不能识别的长reads,使用bwa mem直接将其比对到参考基因组,如果长reads不能比对到参考基因组则丢弃;
3)确定reads上的重复区域:利用包含重复区的长reads的上游和下游序列(默认为18bp,用户可自定义)信息;分别使用bwa mem将上游和下游序列比对到参考基因组,如果它们都有高的比对一致性,那么在重复区和上下游序列之间加上一定数目的N,用来确保下面的过程不会将上下游序列识别为重复区序列;
4)长reads错误校正:首先构造一段比参考基因组上短串联重复长50%的完美短串联重复(重复单元完全一致的短串联重复)序列,例如,参考基因组上短串联重复的重复单元为CTG,长度为30个单元,新构造的完美短串联重复的重复单元也为CTG,长度为45个单元。然后使用一种非对称的比对算法UnsymSeqAlg,将长reads比对到新构造的完美短串联重复序列,根据比对结果进行序列校正;
5)检测重复单元数目:区域内的每一条长reads都通过隐马尔可夫模型识别重复单元数目;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京希望组生物科技有限公司;中南大学湘雅医院,未经北京希望组生物科技有限公司;中南大学湘雅医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810499329.5/2.html,转载请声明来源钻瓜专利网。