[发明专利]基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法有效
申请号: | 201310670752.4 | 申请日: | 2013-12-10 |
公开(公告)号: | CN103699819A | 公开(公告)日: | 2014-04-02 |
发明(设计)人: | 孟金涛;张慧琳;彭丰斌;魏彦杰;冯圣中 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 沈祖锋;郝明琴 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双向 de bruijn 变长 kmer 查询 顶点 扩展 方法 | ||
【技术领域】
本发明涉及基因测序技术领域,特别是涉及一种基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法。
【背景技术】
基因序列分析以算法与数学模型为核心,研究内容涉及多个方面,主要包括:基因数据的存储与获取、序列比对、测序与拼接、基因预测、生物进化与系统发育分析、蛋白质结构预测、RNA结构预测、分子设计与药物设计、代谢网络分析、基因芯片、DNA计算等等。现在生物技术和计算机信息处理技术的紧密结合,加快了处理生物信息数据的速度,使得在尽量短的时间内对生物学意义做出尽量准确的诠释,加快了生物信息学的发展。目前,生物信息处理成为当前信息技术领域面临的巨大挑战之一。
基因序列分析是对海量基因序列数据进行分析,从而提取和挖掘新的生物信息知识。其中,涉及到计算机技术中的机器学习、模式识别、书籍分析与挖掘、组合数学、随机模型、字符串、图形算法、分布式计算、高性能计算、并行计算等知识。其中,全基因组学的研究是当前生物信息学研究的核心之一。
基因是人类最基本的遗传密码,代表着每个人的生命信息。基因序列上存在着遗传位点的细微差异,这些遗传密码的多态性与人类的健康、致病机理、医学治疗有着相当密切的关系。其中,DNA测序是研究全基因组序列需要完成的基本内容之一。
自1977年Sanger测序技术问世以来,经过三十多年的发展,DNA测序技术发展突飞猛进,以高通量、短序列为特点的第二代测序技术逐渐占领市场,以单分子测序为特点的第三代测序技术也逐渐出现,它们分别在测序特点上占有不同的优势。传统基因测序方法的数据提取和分析软件经过近10年来的研究 与开发,目前已经较为完善。但是,测序技术的发展,带来了测序数据的变化,使得当前存在的数据处理软件不能满足当前生物医学研究的需求。
新一代高通量测序方法的应用,可以在短时间内完成整个基因组数据的测定。高通量测序方法的日新月异也同时对获取的基因数据的分析处理方法提出了挑战。在这个目前炙手可热的研究领域,迫切需要开发能满足高通量测序技术的海量数据处理的生物信息学平台。面对个人基因组计划及未来的个性化医疗前景,高效低成本的测序技术成为必然的趋势。同时,简化高效的一站式完备的生物信息学数据分析平台等完备的测序解决方案,也是极为重要、不可或缺的发展方向。
然而新一代的高通量测序方法虽然测序通量高,但是却会引入测序误差,同时测序样本本身由于基因突变,测序不均匀而导致有SNP(Single Nucleotide Polymorphisms,单核苷酸多态性)的出现,而这些测序误差、SNP、测序不均将会在基因组组装时构造的多步双向De Bruijn图中引入一些错误的双向边,其中有一部分是自环双向边。而这些错误的自环双向边在De Bruijn图中,能够阻碍图的收缩,contig无法扩展,最终使得contig的长度和质量都很低。
综上所述,新一代的高通量测序方法产生的短基因片段的组装导致了大量的测序错误,这大大加大了组装算法的计算量。大量的测序错误,使得组装错误率增加,严重影响了组装结果。能否有效地解决这个问题,成为评价一个组装算法优劣的关键。
目前组装算法的策略主要分为两类,一个是基于Overlap-Layout-Consensus(OLC)的算法,另外一个是基于De Bruijn图的算法。其中基于OLC组装算法开发的软件,如SSAKE、VCAKE、SHARCGS等,在基因长序列组装中更占有优势,但并不完全适用于新一代的短序列组装。与OLC组装算法不同,De Bruijn算法不再以read为单位组织数据,而是以k-mers为单位进行数据组装,其优点主要有以下几个方面:首先,以k-mers为单位进行序列组装,不影响节点的质量,减少了冗余数据量。其次,在图中重复区域只出现一次,便于识别,可以避免错误的组装,减小出错率。最后,采取将有重叠 区域映射到同一条弧上的策略,从而简化了搜索路径。目前,很多短序列组装算法都使用这种框架,如Velvet、IDBA、SOAPdenovo,ABySS等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310670752.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:主机实时加固系统和方法
- 下一篇:透射电镜用原位双轴倾转纳米压痕仪
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用