[发明专利]一种二代测序平台的基因组数据高效利用方法和装置有效
申请号: | 202010328112.5 | 申请日: | 2020-04-23 |
公开(公告)号: | CN111445956B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 黄毅;陈海新;杨玲;吴玲清;刘久成 | 申请(专利权)人: | 北京吉因加医学检验实验室有限公司;苏州吉因加生物医学工程有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 王鑫 |
地址: | 102206 北京市昌平区回龙观镇生命园路8号院*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 二代 平台 基因组 数据 高效 利用 方法 装置 | ||
1.一种二代测序平台的基因组数据高效利用方法,其特征在于,包括:
(1)对二代测序原始数据进行质控,质控中保留中部或尾部包含接头序列的读对;
(2)质控达标的数据与参考基因组进行比对后,获得全长比对、部分比对以及未比对上三种比对情况;
(3)针对三种比对情况,分别捕获插入片段的起点和终点,统计插入片段的长度;
三种比对情况通过比对结果文件中的标签列和Cigar字段进行区分;
所述全长比对的情况是读段1和读段2中的Cigar字段除了M外无其它字符串,且插入片段的长度大于测序读长;M是指完整比对到参考基因组的序列;
所述部分比对的情况是读段1和读段2中的Cigar字段除了M外还具有S字符串或H字符串;部分比对出现软剪辑读段和硬剪辑读段;软剪辑读段是读段被比对到参考基因组时,一条读段被切成两段,匹配到不同的区域,截取的部分会出现在比对结果文件中,在Cigar字段中以S字符串标记,而硬剪辑读段截取部分不会出现在比对结果文件中,在Cigar字段中以H字符串标记;
所述未比对上的情况是读段1和读段2中任一读段比对不上参考基因组。
2.根据权利要求1所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述二代测序原始数据为Illumina、BGISEQ或Gene+Seq二代测序平台的测序数据。
3.根据权利要求2所述的二代测序平台的基因组数据高效利用方法,其特征在于,选择Gene+Seq 2000或Gene+Seq 200二代测序平台进行测序的数据,测序策略为双末端测序;读对包含两个成对读段,分别是读段1和读段2,读段长度为100bp或150bp。
4.根据权利要求1-3任一所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述质控包括保留质量过滤阈值为Q20需大于80%的读段,去除N的比例大于碱基总数10% 的读段,剔除读段起始端的接头序列,保留读段中部或尾部包含接头序列的读段;该N表示无法确定碱基信息。
5.根据权利要求1-3任一所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述质控达标的数据与人类参考基因组采用bwa-MEM软件进行比对,bwa-MEM软件的参数-T 设置为0,-k设置为17,-D设置为0.1。
6.根据权利要求1-3任一所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述比对情况为全长比对时,对捕获的插入片段的起点和终点以及插入片段的长度不做处理。
7.根据权利要求1-3任一所述的二代测序平台的基因组数据高效利用方法,其特征在于,对部分比对的结果进行过滤,过滤条件包括:读段1 和读段2的起始端能比对到参考基因组,均大于30bp,且读段1和读段2比对到基因组的部分是互补的,比对结果质量值大于1。
8.根据权利要求1-3任一所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述比对情况为部分比对时,插入片段的大小借助读段1和读段2的测序起点作为锚点,读段1和读段2的测序起始端的比对位置分别作为插入片段的比对起点和终点,进而得到准确的插入片段长度;根据插入片段长度对读段1和读段2进行尾端序列的剔除处理,并根据具体剔除长度对Cigar字段进行更新。
9.根据权利要求1-3任一所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述比对情况为未比对上时,使用局部比对软件对序列进行片段化比对;比对要求为:找出读段和参考基因组之间所有匹配程度超过指定阈值的区间,并仅保留读段1和读段2测序起始端比对到相同位置且读段1比对片段和读段2比对片段为反向互补的情况。
10.根据权利要求9所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述比对情况为未比对上时,局部比对软件为BLAST,指定阈值为:比对长度超过30bp,一致性超过90%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京吉因加医学检验实验室有限公司;苏州吉因加生物医学工程有限公司,未经北京吉因加医学检验实验室有限公司;苏州吉因加生物医学工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010328112.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置