[发明专利]一种二代测序平台的基因组数据高效利用方法和装置有效
申请号: | 202010328112.5 | 申请日: | 2020-04-23 |
公开(公告)号: | CN111445956B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 黄毅;陈海新;杨玲;吴玲清;刘久成 | 申请(专利权)人: | 北京吉因加医学检验实验室有限公司;苏州吉因加生物医学工程有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 王鑫 |
地址: | 102206 北京市昌平区回龙观镇生命园路8号院*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 二代 平台 基因组 数据 高效 利用 方法 装置 | ||
本发明公开了一种二代测序平台的基因组数据高效利用方法和装置,其中,所述方法包括:(1)对二代测序原始数据进行质控,质控中保留中部或尾部包含接头序列的读对;(2)质控达标的数据与参考基因组进行比对后,获得全长比对、部分比对以及未比对上三种比对情况;(3)针对三种比对情况,分别捕获插入片段的起点和终点,统计插入片段的长度。本发明方法保留了更多短片段的数据,以及准确定位插入片段的起点和终点,准确剔除测序数据中的外源序列,该方法可以有效提高血浆中检测到的短片段ctDNA含量,有助于二代测序数据在液体活检中的高效应用。
技术领域
本发明涉及生物信息技术领域,具体涉及一种基于二代测序设备双末端测序策略的基因组数据的处理方法与装置。
背景技术
测序成本的大幅下降,以及近年来的科研进展加快,使得基于第二代测序技术的产品能够普及到临床的诊断和辅助治疗方面。当前二代测序仪主流为双端测序策略,读段读长分别为100bp和150bp。当一部分来自于人类基因组的DNA片段短于100bp时,这部分DNA片段在采用100bp或150bp的测序策略时,测序读长除了包含插入片段序列,末端还会包含不等长的非插入片段的干扰序列,如接头序列或其他建库辅助序列。干扰序列太长导致测序读段在数据标准分析过程中会在多个质控环节被剔除,从而导致部分测序数据丢失。
细胞游离DNA(cfDNA)存在于人类的循环血浆、尿液和其他体液中。cfDNA由双链DNA片段组成,这些片段非常短(200碱基对[bp]),在健康个体中,血浆cfDNA被认为主要来源于造血系正常细胞的凋亡,而来自其他组织的贡献很小。对于肿瘤患者来说,肿瘤细胞能释放大量携带来自肿瘤细胞的大量突变信息的DNA到血液中,简称为循环肿瘤DNA(ctDNA)。血浆中ctDNA含量很低,且血浆中ctDNA片段比cfDNA更短。人体血液样本中长度小于100bp的遗传片段的比重能高达20%,尿液的cfDNA则比例更大。这部分短DNA片段如果能够被保留,可以有效减少数据流失,防止数据失真,从而提高检测癌症患者外周血中cfDNA基因组改变的灵敏度,有助于检测点突变和以前无法检测到的拷贝数变异。而且通过片段选择,甚至可以减少非肿瘤来源的cfDNA的占比,提高下游分析的信噪比。
目前主要是通过实验方法进行片段的选择,比如高通量自动化DNA片段回收系统,或者通过采用读长为50bp的双端测序策略。这些方法都在一定程度上增加了额外的实验或测序成本。
发明内容
因此,本发明要解决的技术问题在于,克服现有技术中并没有能够在不增加额外的实验或测序成本的情况下实现提高低于测序读长的核酸短片段检出量的问题,本发明提供一种不增加任何额外的实验和测序成本的基础上,利用常规的二代测序数据,在生物信息分析过程中通过特殊的质控步骤和比对结果过滤步骤,保留了更多短片段的数据的基因组数据高效利用方法,并提供了该方法的装置。
一种二代测序平台的基因组数据高效利用方法,包括:
(1)对二代测序原始数据进行质控,质控中保留中部或尾部包含接头序列的读对;
(2)质控达标的数据与参考基因组进行比对后,获得全长比对、部分比对以及未比对上三种比对情况;
(3)针对三种比对情况,分别捕获插入片段的起点和终点,统计插入片段的长度。
所述二代测序原始数据为Illumina、BGISEQ或Gene+Seq二代测序平台的测序数据;优选的,选择Gene+Seq 2000或Gene+Seq 200二代测序平台进行测序的数据,测序策略为双末端测序,读对包含两个成对读段,分别是读段1和读段2,读段长度为100bp或150bp。
所述质控包括保留质量过滤阈值为Q20需大于80%的读段,去除N的比例大于碱基总数10%的读段,剔除读段起始端的接头序列,保留读段中部或尾部包含接头序列的读段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京吉因加医学检验实验室有限公司;苏州吉因加生物医学工程有限公司,未经北京吉因加医学检验实验室有限公司;苏州吉因加生物医学工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010328112.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置