[发明专利]并行局部序列对齐在审
申请号: | 201380066248.1 | 申请日: | 2013-12-17 |
公开(公告)号: | CN105051741A | 公开(公告)日: | 2015-11-11 |
发明(设计)人: | M·穆苏瓦蒂;T·米可维茨 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 段登新 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并行 局部 序列 对齐 | ||
背景
蛋白质和核酸是活的有机体中的丰度中找到的生物大分子,其中它们作用于编码、发射和表达基因信息。核酸包括DNA(脱氧核糖核酸)和RNA(核糖核酸)。例如,DNA编码信息用于构建蛋白质。
通常,期望执行局部序列对齐,其中标识两个核苷酸序列或蛋白质序列之间的类似区域。核苷酸或蛋白质序列对齐可以涉及为给定的成本矩阵解决近似的串对齐问题。已知数据库序列、查询序列和对这两个序列间的生物相似性建模的成本函数,可以执行序列对齐以查找与查询序列匹配的数据库序列的子串。
Smith-Waterman算法是基于用于执行序列对齐的动态编程的按序算法。Smith-Waterman算法可以生成匹配,而同时是内在有序的。Smith-Waterman算法的运行时成本可以与数据库序列长度和查询序列长度的乘积成比例。由此,随着数据库序列长度的增加(例如,对于大基因组),运行时成本可以使Smith-Waterman算法的实现通常是不现实的。相应地,已经开发了尝试找到近似匹配的各种基于试探法的方法。然而,这些常规的基于试探法的方法通常较不准确(例如,误匹配)。
概述
此处描述了与将查询序列与数据库序列对齐的并行局部序列对齐有关的各种技术。数据库序列被分段成多个带。第一处理单元可以基于一成本函数来为数据库序列的第一带跨查询序列计算Smith-Waterman值,该成本函数对序列间的生物相似性建模。此外,第二处理单元可以基于该成本函数来为数据库序列的第二带跨查询序列计算Smith-Waterman值。而且,可以基于该成本函数(例如,由第一处理单元或第二处理单元)来跨查询序列重新计算数据库序列的第二带的Smith-Waterman值的子集。该要被重新计算的Smith-Waterman值的子集可以基于查询序列长度和该成本函数来确定。
此处提供的并行局部序列对齐可以沿数据库序列长度而并行化Smith-Waterman算法,而同时保持有序的Smith-Waterman算法的对齐。数据库序列被分割成多个带(例如,至少第一带和第二带)。各处理单元可以为所述带的每一个独立地计算Smith-Waterman值(例如,并行地计算)。此后,可由所述处理单元(例如,并行地)重新计算基于查询序列长度和成本函数所确定的Smith-Waterman值的子集。根据各个实施例,多个处理单元可以是不同的处理器、一多核处理器的不同内核、一多核图形处理单元(GPU)的不同内核、被包括于不同的计算设备中、它们的组合、等等。
以上概述呈现了简化概述以便提供此处讨论的系统和/或方法的一些方面的基本理解。该概述不是此处讨论的系统和/或方法的扩展概览。它不意图标识关键的/重要的特征或者划定这种系统和/或方法的范围。其唯一目的是以简化形式呈现一些概念,作为对稍候呈现的更详细描述的序言。
附图简述
图1图示执行并行局部序列对齐的示例性系统的功能性框图。
图2图示由图1的系统所生成的示例性成本表。
图3-4图示图2的成本表的各个示例性重叠区域,所述重叠区域包括重新计算的Smith-Waterman值的子集。
图5是图示被配置成供第一处理单元执行的示例性方法的流程图。
图6是图示被配置成供计算设备的多个处理单元执行的示例性方法的流程图。
图7图示示例性的计算设备。
详细描述
现在将参照附图描述与由多个处理单元并行执行的局部序列对齐有关的各种技术,其中相同的参考标号通篇用于指代相同的元件。在以下描述中,为说明目的,提出许多具体细节以便提供一个或多个方面的透彻理解。然而,显而易见的是,可以实现这种(诸)方面而无须这些具体细节。在其他实例中,以框图形式示出公知的结构和设备以便促进描述一个或多个方面。而且应当理解,被描述为由特定系统组件实现的功能性可由多个组件执行。类似地,例如,一个组件可以被配置成执行被描述为由多个组件实现的功能性。
此外,术语“或”意图意指包括性的“或”而不是排除性的“或”。也就是说,除非另外指明、或从上下文清楚可见,短语“X采用A或B”意图意指自然包括性排列的任一种。也就是说,以下实例的任一个均满足短语“X采用A或B”:X采用A;X采用B;X采用A和B两者。此外,除非另外指明或者从上下文清楚可见是指单数形式,否则本申请和所附权利要求书中使用的冠词“一(a)”和“一(an)”应当一般被视为意指“一个或多个”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380066248.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用