[发明专利]一种大片段插入或缺失的预测方法及系统有效
申请号: | 201710190589.X | 申请日: | 2017-03-28 |
公开(公告)号: | CN106951731B | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 陈丽娟;王凯;秦公炜 | 申请(专利权)人: | 至本医疗科技(上海)有限公司;至本医疗科技江苏有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B25/20 |
代理公司: | 上海百一领御专利代理事务所(普通合伙) 31243 | 代理人: | 王奎宇;马菁平 |
地址: | 200120 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 片段 插入 缺失 预测 方法 系统 | ||
本发明公开一种大片段插入或缺失的预测方法及系统,涉及生物信息预测领域。本发明将组装原理应用于靶向测序的数据来预测大片段插入和缺失,克服了现有技术方法无法正确预测大片段插入和缺失的局限性,充分考虑了原始测序序列之间的关联性,充分保留了原始序列中的杂合信息,得到较长的无测序错误拼接序列,从而正确地预测大片段长度的插入和缺失,运行时间短,预测结果准确,基本无假阳性,操作简单,易使用。
技术领域
本发明涉及生物信息领域,尤其涉及一种应用于靶向测序数据的大片段插入或缺失预测方法及系统。
背景技术
从2007年第一个个人基因组测序数据诞生之后,测序技术在人类基因组的应用广泛开展。近年来,随着测序技术的不断升级,测序成本也逐年降低,未来即将进入1000元/Gb的时代,也使得重测序技术盛行,广泛应用于个人基因组和癌症基因组,用于检测个人遗传疾病基因变异或者癌症基因变异,包括包括点突变、插入和缺失、基因重排等等基因变异。
插入和缺失(Insertions and Deletions,INDELs)是DNA和蛋白质在进化过程中发生的序列长度上的改变。当基因序列中缺失在某一段位置的序列时,称为缺失(Deletion,DEL);当基因序列中在某一段位置插入一段序列时,称为插入(Insertion,INS)。通常当插入和缺失长度小于10bp时,认为该INDELs为小片段的插入和缺失,而大于10bp或者更长的片段的插入和缺失,认为INDELs为大片段的插入和缺失。插入和缺失作为基因变异的一种形式,在疾病的发展中处于非常重要的作用,特别是随着研究的不断深入,大片段的结构插入和缺失作为染色体结构变异的一种表现形式,作用也越来越明显。
目前,应用于靶向测序数据的插入和缺失检测方法非常稀少而且准确率不高,大部分方法是应用于全基因组测序数据,而全基因组数据与靶向测序数据有着不同的数据特征,因此这些方法不能直接用于靶向测序数据的插入和缺失的预测,会出现检出结果中假阳性率非常高的情况。而假阳性对后续基因在样本中发挥作用的重要性起着非常关键的作用,因此,亟待出现一种准确度高的应用于靶向测序数据的插入和缺失方法。目前流行的方法是基于序列比对预测INDEL的方法,即将最原始的测序序列与人类参考基因组进行比对,根据比对结果,来推断插入和缺失的位点信息。近年来,研究者们都在想办法来减少初始比对带来的噪音,但这些尝试始终基于最原始的序列比对结果,很难识别测序序列没有正确错配的区域或者测序序列没有比对到参考基因组的情况,而这些情况正可能是变异发生的区域。另外,第二代测序技术所能检测到的测序序列片段长度在双端75bp~300bp,例如Illumina或Thermo Fisher所开发的技术,,受限于该测序序列的长度,目前方法所能正确检测的INDEL长度比较小,一般为小的插入和缺失,通常能检测的缺失片段长度一般小于30bp,插入片段长度则小于25bp,大片段的插入和缺失基本无法检测。因此,目前基于序列比对预测INDEL的方法,局限性很大,只能预测片段小的插入和缺失,而无法预测大片段插入和缺失。
发明内容
针对现有技术中基于靶向测序数据无法准确预测大片段插入和缺失的存在技术缺陷,本发明提供一种可以检测大片段插入和缺失的预测方法,该方法利用组装原理将原始测序序列组装成信息不冗余的组装序列集,该序列集信息准确、长度长、保留了原始序列中的杂合信息,基于该序列的信息来预测大片段插入和缺失,克服了现有技术中只能检测小片段INDEL的问题,可以检测成百上千片段长度的INDEL,特别是可以检测插入片段长度大于或等于25bp或缺失片段长度大于或等于50bp,本发明方法运行时间短,预测准确,操作简单。
为实现本发明的技术目的,本发明提供一种大片段插入或缺失的预测方法,包括:
将待测样本目标区域的多条基因测序序列进行筛选以及碱基错误校正处理,获得待测样本目标区域的多条高质量测序序列;
对待测样本目标区域的多条高质量测序序列进行基于冗余信息去除的组装处理,获得保留了原始遗传信息且去冗余信息测序序列的组装序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于至本医疗科技(上海)有限公司;至本医疗科技江苏有限公司,未经至本医疗科技(上海)有限公司;至本医疗科技江苏有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710190589.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电磁铁自动测试设备
- 下一篇:一种纺织纱管在线分拣装置