[发明专利]基于多步双向DeBruijn图的变长kmer查询的双向边扩展方法有效

专利信息
申请号: 201310670740.1 申请日: 2013-12-10
公开(公告)号: CN103699818B 公开(公告)日: 2017-04-05
发明(设计)人: 孟金涛;张慧琳;彭丰斌;魏彦杰;冯圣中 申请(专利权)人: 深圳先进技术研究院
主分类号: G06F19/22 分类号: G06F19/22
代理公司: 深圳市科进知识产权代理事务所(普通合伙)44316 代理人: 沈祖锋,郝明琴
地址: 518055 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 双向 debruijn 变长 kmer 查询 扩展 方法
【说明书】:

【技术领域】

发明涉及基因测序技术领域,特别是涉及一种基于多步双向De Bruijn图的变长kmer查询的双向边扩展方法。 

【背景技术】

基因序列分析以算法与数学模型为核心,研究内容涉及多个方面,主要包括:基因数据的存储与获取、序列比对、测序与拼接、基因预测、生物进化与系统发育分析、蛋白质结构预测、RNA结构预测、分子设计与药物设计、代谢网络分析、基因芯片、DNA计算等等。现在生物技术和计算机信息处理技术的紧密结合,加快了处理生物信息数据的速度,使得在尽量短的时间内对生物学意义做出尽量准确的诠释,加快了生物信息学的发展。目前,生物信息处理成为当前信息技术领域面临的巨大挑战之一。 

基因序列分析是对海量基因序列数据进行分析,从而提取和挖掘新的生物信息知识。其中,涉及到计算机技术中的机器学习、模式识别、书籍分析与挖掘、组合数学、随机模型、字符串、图形算法、分布式计算、高性能计算、并行计算等知识。其中,全基因组学的研究是当前生物信息学研究的核心之一。 

基因是人类最基本的遗传密码,代表着每个人的生命信息。基因序列上存在着遗传位点的细微差异,这些遗传密码的多态性与人类的健康、致病机理、医学治疗有着相当密切的关系。其中,DNA测序是研究全基因组序列需要完成的基本内容之一。 

自1977年Sanger测序技术问世以来,经过三十多年的发展,DNA测序技术发展突飞猛进,以高通量、短序列为特点的第二代测序技术逐渐占领市场,以单分子测序为特点的第三代测序技术也逐渐出现,它们分别在测序特点上占有不同的优势。传统的基因测序方法的数据提取和分析软件经过近10年来的研 究与开发,目前已经较为完善。但是,测序技术的发展,带来了测序数据的变化,使得当前存在的数据处理软件不能满足当前生物医学研究的需求。 

新一代高通量测序方法的应用,可以在短时间内完成整个基因组数据的测定。高通量测序方法的日新月异也同时对获取的基因数据的分析处理方法提出了挑战。在这个目前炙手可热的研究领域,迫切需要开发能满足高通量测序技术的海量数据处理的生物信息学平台。面对个人基因组计划及未来的个性化医疗前景,高效低成本的测序技术成为必然的趋势。同时,简化高效的一站式完备的生物信息学数据分析平台等完备的测序解决方案,也是极为重要不可或缺的发展方向。 

然而新一代的高通量测序方法虽然测序通量高,但是却会引入测序误差,同时测序样本本身的测序错误,测序不均匀,SNP,以及基因组本身的重复序列Repeat,而这些测序误差、SNP、重复序列将会在基因组组装时构造的多步双向De Bruijn图中引入一些错误双向边或者顶点,而使得很多双向边无法继续扩展。同时由于固定kmer长度,使得测序序列的有效信息损失,无法解耦所有长度超过kmer长度的重复序列。以上这些情况使得De Bruijn图无法继续收缩,contig无法扩展,最终使得contig的长度和质量都很低。 

新一代的高通量测序方法产生的短基因片段的组装导致了大量的测序错误,这大大加大了组装算法的计算量。大量的测序错误,使得组装错误率增加,严重影响了组装结果。能否有效地解决这个问题,成为评价一个组装算法优劣的关键。 

目前组装算法的策略主要分为两类,一个就是基于Overlap-Layout-Consensus(OLC)的算法,另外一个就是基于De Bruijn图的算法。其中基于OLC组装算法开发的软件,如SSAKE、VCAKE、SHARCGS等,在基因长序列组装中更占有优势,但并不完全适用于新一代的短序列组装。与OLC组装算法不同,De Bruijn算法不再以read为单位组织数据,而是以k-mers为单位进行数据组装,其优点主要有以下几个方面:首先,以k-mers为单位进行序列组装,不影响节点的质量,减少了冗余数据量。其次,在图中重复区域只出 现一次,便于识别,可以避免错误的组装,减小出错率。最后,采取将有重叠区域映射到同一条弧上的策略,从而简化了搜索路径。目前,很多短序列组装算法都使用这种框架,如Velvet、IDBA、SOAPdenovo,ABySS等。 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310670740.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top