[发明专利]一种二代测序平台的基因组数据高效利用方法和装置有效

专利信息
申请号: 202010328112.5 申请日: 2020-04-23
公开(公告)号: CN111445956B 公开(公告)日: 2021-06-22
发明(设计)人: 黄毅;陈海新;杨玲;吴玲清;刘久成 申请(专利权)人: 北京吉因加医学检验实验室有限公司;苏州吉因加生物医学工程有限公司
主分类号: G16B30/10 分类号: G16B30/10
代理公司: 北京三聚阳光知识产权代理有限公司 11250 代理人: 王鑫
地址: 102206 北京市昌平区回龙观镇生命园路8号院*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 二代 平台 基因组 数据 高效 利用 方法 装置
【权利要求书】:

1.一种二代测序平台的基因组数据高效利用方法,其特征在于,包括:

(1)对二代测序原始数据进行质控,质控中保留中部或尾部包含接头序列的读对;

(2)质控达标的数据与参考基因组进行比对后,获得全长比对、部分比对以及未比对上三种比对情况;

(3)针对三种比对情况,分别捕获插入片段的起点和终点,统计插入片段的长度;

三种比对情况通过比对结果文件中的标签列和Cigar字段进行区分;

所述全长比对的情况是读段1和读段2中的Cigar字段除了M外无其它字符串,且插入片段的长度大于测序读长;M是指完整比对到参考基因组的序列;

所述部分比对的情况是读段1和读段2中的Cigar字段除了M外还具有S字符串或H字符串;部分比对出现软剪辑读段和硬剪辑读段;软剪辑读段是读段被比对到参考基因组时,一条读段被切成两段,匹配到不同的区域,截取的部分会出现在比对结果文件中,在Cigar字段中以S字符串标记,而硬剪辑读段截取部分不会出现在比对结果文件中,在Cigar字段中以H字符串标记;

所述未比对上的情况是读段1和读段2中任一读段比对不上参考基因组。

2.根据权利要求1所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述二代测序原始数据为Illumina、BGISEQ或Gene+Seq二代测序平台的测序数据。

3.根据权利要求2所述的二代测序平台的基因组数据高效利用方法,其特征在于,选择Gene+Seq 2000或Gene+Seq 200二代测序平台进行测序的数据,测序策略为双末端测序;读对包含两个成对读段,分别是读段1和读段2,读段长度为100bp或150bp。

4.根据权利要求1-3任一所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述质控包括保留质量过滤阈值为Q20需大于80%的读段,去除N的比例大于碱基总数10% 的读段,剔除读段起始端的接头序列,保留读段中部或尾部包含接头序列的读段;该N表示无法确定碱基信息。

5.根据权利要求1-3任一所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述质控达标的数据与人类参考基因组采用bwa-MEM软件进行比对,bwa-MEM软件的参数-T 设置为0,-k设置为17,-D设置为0.1。

6.根据权利要求1-3任一所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述比对情况为全长比对时,对捕获的插入片段的起点和终点以及插入片段的长度不做处理。

7.根据权利要求1-3任一所述的二代测序平台的基因组数据高效利用方法,其特征在于,对部分比对的结果进行过滤,过滤条件包括:读段1 和读段2的起始端能比对到参考基因组,均大于30bp,且读段1和读段2比对到基因组的部分是互补的,比对结果质量值大于1。

8.根据权利要求1-3任一所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述比对情况为部分比对时,插入片段的大小借助读段1和读段2的测序起点作为锚点,读段1和读段2的测序起始端的比对位置分别作为插入片段的比对起点和终点,进而得到准确的插入片段长度;根据插入片段长度对读段1和读段2进行尾端序列的剔除处理,并根据具体剔除长度对Cigar字段进行更新。

9.根据权利要求1-3任一所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述比对情况为未比对上时,使用局部比对软件对序列进行片段化比对;比对要求为:找出读段和参考基因组之间所有匹配程度超过指定阈值的区间,并仅保留读段1和读段2测序起始端比对到相同位置且读段1比对片段和读段2比对片段为反向互补的情况。

10.根据权利要求9所述的二代测序平台的基因组数据高效利用方法,其特征在于,所述比对情况为未比对上时,局部比对软件为BLAST,指定阈值为:比对长度超过30bp,一致性超过90%。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京吉因加医学检验实验室有限公司;苏州吉因加生物医学工程有限公司,未经北京吉因加医学检验实验室有限公司;苏州吉因加生物医学工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010328112.5/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top