[发明专利]基于众核协处理器的三级流水序列比对方法有效
申请号: | 201410745667.4 | 申请日: | 2014-12-09 |
公开(公告)号: | CN104375807A | 公开(公告)日: | 2015-02-25 |
发明(设计)人: | 廖湘科;朱小谦;崔英博;彭绍亮;邹丹;王恒;朱敏;刘欣;王海强;高明 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F9/38 | 分类号: | G06F9/38 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 郭敏 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 众核协 处理器 三级 流水 序列 方法 | ||
技术领域
本发明涉及生物信息领域序列比对的方法,尤其指一种基于众核协处理器的序列比对方法。
背景技术
分子生物学是从分子水平上研究生命现象物质基础的学科,通过研究生物分子的结构、功能和合成等方面的原理,从而使生物体的功能和性状在前所未有的分子细节上得到详尽的分析和理解,进而更加科学严谨地阐明生命现象的本质。
在分子生物学研究中,DNA的序列分析是进一步研究和改造目的基因的基础。DNA(脱氧核糖核酸)是一种生物大分子,一共分为四种碱基,记为A、T、C、G,这些大分子的排列顺序决定了某种遗传指令,这些遗传指令是建构细胞内其他的化合物,如蛋白质与核糖核酸的需要。带有蛋白质编码的DNA片段称为基因,即遗传物质,是DNA分子上具有遗传信息的特定核苷酸序列。基因经过转录、翻译,最终产生结构和功能各异的、表现生物体性状的蛋白质。
DNA序列分析的基础是对DNA分子进行测序,即确定DNA分子中A、T、C、G四种碱基的排列顺序。当前的DNA测序技术,一次实验最多只能直接测得不大于5000个碱基的排列顺序,形成多个DNA短序列(称为read)。而一般生物的基因组碱基数目都十分巨大,如人类基因组总长约为30亿个碱基对。这样,绝大多数生物的基因组都不能通过实验手段一次性获得,而必须借助于计算机技术进行后续拼接得到完整的基因组。
序列比对是目前广泛使用的DNA序列分析方法,它是将测序得到的read短序列直接与拼接完成的参考基因组进行比对,确定read在参考基因组中是否出现以及出现的具体位置。通过序列比对进行DNA序列分析,避免了对目标基因组进行组装,可以很大程度上节省序列分析的时间和工作量,提高序列分析的效率。
由于比对时read数量都较大,无法一次性全部存放到计算机主存中。所以目前常用的DNA序列比对方法均按照以下步骤进行:
步骤1:根据计算机主存可用空间大小,将read平均分为若干组,每一组所占空间大小不超过计算机主存容量;
步骤2:从磁盘上读取一组read到主存中;
步骤3:对读取到主存中的read逐个进行比对;
步骤4:将read比对结果写回磁盘;
步骤5:检查磁盘中是否还存在未比对的序列,如果存在,返回步骤2;如果不存在,结束比对过程。
目前比对主要使用的运算器件为计算机中央处理器CPU或者图形处理器GPU。
虽然与进行序列组装相比,序列比对可以节省大量时间,但是目前广泛使用的基于CPU的串行序列比对方法的速度仍比较慢,如在配备两路八核Intel 2.4GHz CPU的常用服务器上,采用李恒在论文《Fast and accurate short read alignment with Burrows-Wheeler Transform》中公布的基于BW(Burrows-Wheeler)变换的序列比对方法,对长度为100个碱基的8千万条序列进行比对,需要花费一天以上时间,很难满足后序的序列分析对于时间的要求,更是无法满足时效性要求较高的临床需求。
基于CPU的并行序列比对方法使得多个线程能够并行进行序列比对,有效地提高了序列比对的速度。但是目前绝大部分研究机构使用的是单节点服务器,CPU计算能力十分有限。而随着测序技术的发展,特别是新一代高通量测序技术的出现,单位时间内产生的read数量翻了几翻,基于CPU的并行序列比对软件也已经很难有效处理如此大量的read。
基于GPU的序列比对软件,利用GPU具有大量计算核心的特性,使用其对序列比对进行加速,有效地增强了服务器的计算能力,与基于CPU的并行序列比对方法相比,进一步提高了速度。GPU指令集设计与CPU相比较为简单,但是能够快速处理简单的浮点和整型计算。而目前广泛使用的李恒在论文《Fast and accurate short read alignment with Burrows-Wheeler Transform》中公布的基于BW(Burrows-Wheeler)变换的序列比对方法运算过程复杂,程序分支多,当GPU中的一个核心遇到分支时,与其同组的其他核心均要等待该分支处理完毕才能继续并行执行,很大程度上降低了序列比对的效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410745667.4/2.html,转载请声明来源钻瓜专利网。