[发明专利]一种基因组测序数据序列组装方法有效

专利信息
申请号: 201410177319.1 申请日: 2014-04-29
公开(公告)号: CN104751015B 公开(公告)日: 2017-08-29
发明(设计)人: 孙际宾;李澎鹏;郑平;马延和 申请(专利权)人: 中国科学院天津工业生物技术研究所
主分类号: G06F19/18 分类号: G06F19/18
代理公司: 天津滨海科纬知识产权代理有限公司12211 代理人: 韩敏
地址: 300308 天津*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基因组 序数 序列 组装 方法
【说明书】:

技术领域

发明涉及基因技术,尤其涉及一种基因组测序数据序列组装方法。

技术背景

随着测序技术的不断进步,已经有大量的微生物基因组被完成并提交到数据库。具有工业用途的微生物,其工业用菌株大多是对已有菌株进行不断筛选和改造得到的。

为了获取一株工业用菌株的基因组全图,目前常用的分析方案有De novo(从头测序)。De novo是指在没有任何背景信息的基础上使用测序和常规分子生物学实验手段对目的物种基因组进行测序,组装,框架搭建和空白(Gap)填补的技术流程。这一方案在面对较为复杂或者较大的基因组时,会耗费大量时间和成本,但其获得的结果是最为可靠的,可以获得一个物种的质粒、质体、特异性序列和突变结果,进而能够获取一个物种的全部功能序列并分析得到其生理生化能力,重构其生活史。

目前De novo最常用的是“overlap-layout-consensus”方案,通过序列比对的方法对所有测序所得的读序(又称为read,是指测序出的一条序列)的边缘序列进行侦测,寻找可能存在的重叠区域。而后,根据这些读序的重叠关系对这些读序进行合并,构成重叠群从而完成组装。

图1所示为现有技术De novo中“overlap-layout-consensus”算法的示意图。如图1所示,假设在基因组上存在两个高度相似序列REP1和REP2。Read1和Read2分别位于REP1两侧,并且其重叠区域坐落于REP1中,两者重叠区域长度为L1;Read3和Read4位于REP2两侧,并且其重叠区域位于REP2内,这两者重叠长度为L2,并且L2>L1。

如果组装程序使用贪婪算法,假设在遍历序列过程中首先遍历到Read1,由于其具有最好重叠关系的序列为Read4,因此,Read1->Read4这个连接结果被带入到最终结果中,导致组装结果发生错误。因此,只有Read3或者Read4的遍历顺序大于Read1、Read2时,才能得到正确的结果。

如果组装程序使用图论理论,虽然能够识别出贪婪算法可能导致的错误,但也是有局限性的。假设在读序重叠侦测(overlap)步骤中设定一个参数L,如果两个序列的重叠长度大于L才认为两个序列具有重叠关系,假设L1<L<L2;那么在读序重叠侦测过程中,由于参数选择的原因,Read1->Read2这个关系就不会被识别到,导致在读序摆放(layout)过程中,如果Read1或者Read2首先被遍历到,由于其只有一种连接方式(Read1->Read4,Read2->Read3)被识别到,该部分会被认为是可信的,进而被带入到最终结果中导致组装错误。

发明内容

有鉴于此,本发明实施例提供一种新的基因组测序数据序列组装方法,可以简便而准确地实现基因组测序数据序列的准确还原。

为了达到上述目的,本发明实施例提供的一种基因组测序数据序列组装方法,包括:

根据序列片段之间的重叠关系,构建重叠关系图G以及反向互补图G’;

任取重叠关系图G中的未被检查过的节点nx,以任意方向D遍历G和G’;

判断任意方向D中是否存在一节点ny与节点nx有连接关系;如果存在,则继续判断在方向D中的节点ny与节点nx是否为双向唯一关系;

当所述节点ny与节点nx为双向唯一关系时,将所述节点ny与nx的关系判定为可信连接关系;否则,将所述节点ny与nx的所有关系判定为不确认连接关系。

其中,进一步包括:

将已经检查过的关系从G和G’中删除;并转向任取重叠关系图G中的未被检查过的节点的步骤,直至重叠关系图G中每一个节点均被检查过。

其中,所述判断节点ny与节点nx是否为双向唯一关系包括:

当且仅当在G中,找到一节点ny为该节点nx下游的唯一路径;并且在G’中,节点nx是节点ny的下游唯一路径时,认定所述节点ny与节点nx为双向唯一关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院天津工业生物技术研究所,未经中国科学院天津工业生物技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410177319.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top