[发明专利]测序数据分析方法和设备及高通量测序方法有效
申请号: | 201810921895.0 | 申请日: | 2018-08-14 |
公开(公告)号: | CN110827920B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 刘舒;刘晨;刘莉玲;黄金 | 申请(专利权)人: | 武汉华大医学检验所有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;C12Q1/6869 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 赵天月 |
地址: | 430070 湖北省武汉市东湖新技术开发区高新*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 序数 分析 方法 设备 通量 | ||
本发明涉及基因测序领域,具体涉及一种测序数据分析方法和设备及一种高通量测序方法。所述测序数据包括疑似污染测序读段,所述疑似污染测序读段含有接头匹配区,所述方法包括:基于所述疑似污染测序读段的序列,确定分析窗口序列,所述分析窗口序列包括:接头匹配区以及接头毗邻区;基于所述疑似污染测序读段的对应测序读段的序列,确定接头毗邻区对应序列;基于所述接头毗邻区对应序列与所述接头毗邻区的匹配水平,确定所述疑似污染测序读段是否被接头污染。利用本发明的方法和装置,可以有效且全面去除接头污染的测序读段,保证接头污染过滤后数据的碱基平衡性,而且能够提高数据的准确度。
技术领域
本发明涉及基因测序领域,具体涉及一种测序数据分析方法和设备及一种高通量测序方法。
背景技术
二代测序原始数据下机后,在使用前通常首先会进行数据的过滤处理,包含去除接头污染的reads(读段),低质量的reads以及测序读N的reads等。
接头污染的reads是指当文库构建的部分插入片段小于测序读长时,会在测序的末端出现测到接头序列的情况,那么含有接头序列的插入片段即为接头污染的reads。由于接头序列非样本本身实际插入片段的序列,故需要在测序完成后进行去除,以免影响到样本碱基的随机性和信息分析的准确性。
然而,如何过滤去除接头污染的reads还需要进一步改进。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
本发明的发明人在研究过程中发现:
当将测序原始读段末端得到的碱基序列与接头序列进行匹配,如果比对结果呈现出:当容一个碱基的错配后匹配接头的程度能够达到50%以上时,则认为该读段为接头污染的读段,会将读段整条进行去除,这种对于接头污染的读段的过滤方法存在着很多问题和缺点,表现在如下几个方面:
第一,这种过滤方法不能有效去除所有的接头污染的读段。例如,当接头的长度为34bp,通过这种过滤方式只能过滤掉至少能匹配接头长度16bp以上的序列(容一个碱基错配且匹配50%以上);而对于在15bp以下的接头污染的读段则无法去除。
而且,如果单纯通过降低接头污染所匹配的程度(例如降低为25%以上),即只要匹配接头长度8bp以上的序列就能去除,但是由于8bp的序列特异性很差(通过研究发现8bp可以和大量基因组多处序列进行匹配),则可能会过滤掉样本本身的序列,从而会误杀到正常的读段(即没有接头污染的读段)。从而会造成过滤不准确,同时对于小于8bp匹配的接头依然无法过滤干净。
第二,这种过滤方法会导致过滤后的测序数据依然会存在碱基分离。由于过滤后的数据中依然存在部分接头污染的读段,而接头污染是外源的固定序列,即会打破样本本身基因组碱基的平衡性,造成A的含量不同于T,C的含量不同于G。
第三,影响测序数据的准确性和比对率。由于过滤后的数据中依然残存部分接头污染的读段,由于接头污染引入的接头外源序列则无法匹配到参考基因组而影响到测序数据的准确性和比对率。
为此,本发明的发明人创造性的制定出一种利用插入片段序列并采用滑动式匹配原则的可以有效全面去除接头污染reads的方法,保证测序数据的碱基平衡,并提高数据的准确性和比对率。本发明的方法可以打破完全依赖于接头序列来确定接头污染的读段,而且采用本发明的方法使得最终获得的测序数据更加精确,比对率更高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉华大医学检验所有限公司,未经武汉华大医学检验所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810921895.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:奶瓶气压调整配件及允许具奶嘴的奶瓶进行喂食的方法
- 下一篇:一种旋翼测量装置