[发明专利]基于流处理的生物序列数据库搜索多层次加速方法无效

申请号：	200710036196.X	申请日：	2007-11-22
公开（公告）号：	CN101158952A	公开（公告）日：	2008-04-09
发明（设计）人：	王勇献;王正华;董蕴源;车永刚;徐传福;彭宇行;王意洁;邢座程	申请（专利权）人：	中国人民解放军国防科学技术大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F19/00
代理公司：	国防科技大学专利服务中心	代理人：	郭敏
地址：	410073湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于处理生物序列数据库搜索多层次加速方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于流处理的生物序列数据库搜索多层次加速方法，其特征在于使用配置有流处理器的计算机集群系统，对生物序列数据库搜索过程中的“分解搜库任务”与“成对序列比对”这两个核心环节进行资源分配与任务划分，实现集群节点层、流级计算层、流内核指令层三个层次的多级并行提速，具体方法是：

第一步，构建由多台个人计算机组成的集群系统，每台计算机都是集群系统的节点，各节点有着各自独立的存储系统，节点之间的通信采用消息传递的方式；节点依次编号为0，1，2，...，n_p-1，n_p为集群系统中节点的总数目，指定编号为0的那个节点机器为主控节点机器，它负责与用户交互，完成输入输出及对搜索结果的中间处理；每个节点除了自身的主处理器外，还配置一个流处理器为该节点的协处理器；流处理器中的计算部件包含有p个硬件计算簇单元，p个硬件计算簇利用SIMD方式同时处理流向量中的p个数据；p是流处理器中硬件计算簇单元的数目，它由具体的流处理器型号与配置所决定；

第二步，主控节点机器将数据库序列分布存储到集群系统中各个节点机器，即在创建数据库和增量更新数据时，将生物序列数据库中的序列数据平均分布到集群系统中不同节点的存储器中；

第三步，主控节点机器对查询序列进行填充及重排；

第四步，主控节点机器将查询序列分发到集群系统中的各个节点机器，即主控节点机器将填充与重排后的查询序列分发给计算机集群系统中的所有节点，每个节点机器将该查询序列及存放于本地存储器中的数据库序列一并读入本地内存；

第五步，各个节点机器并行执行搜索任务，每个节点机器负责完成查询序列在本地数据库序列中的搜索任务，搜索的结果是一条比对得分值最高的结果序列及其比对得分值；

第六步，主控节点机器收集各节点机器上并行搜索任务的结果并汇总输出：每个节点机器完成各自的搜索子任务后，将返回结果发送给主控节点机器，主控节点机器将返回的这n_p条结果序列按其比对得分值大小排序，挑选得分值最高的那条序列作为最终搜索结果并输出。

2.如权利要求1所述的基于流处理的生物序列数据库搜索多层次加速方法，其特征在于主控节点机器对数据库序列进行分布存储的方法是：

2.1主控节点机器对数据库序列按照序列长度进行降序排列，形成一个序列列表seq[0]，seq[1]，...，seq[N-1]，其中N是生物序列数据库中序列的总数目；

2.2主控节点机器将序列列表中的每条序列分发到集群系统中的各个节点中去，分发规则是：将seq[i]这条序列分发到编号为i′的节点的局部存储器中，i′的计算方法是：若i₀＜n_p，则取i′＝i₀；若i₀≥n_p，则取i′＝2n_p-1-i₀，式中，i₀＝i mod(2n_p)，i＝0，1，...，N-1。

3.如权利要求1所述的基于流处理的生物序列数据库搜索多层次加速方法，其特征在于主控节点机器对查询序列进行填充及重排的方法是：

3.1主控节点机器对查询序列进行数据填充与补齐：如果查询序列s′的长度n′是2p的整倍数，则跳至步骤3.2，否则在查询序列的尾部追加2p-n′mod(2p)个“空元素”NUL，填充补齐后的查询序列记作s″，其长度用n表示；

3.2主控节点机器对查询序列进行重排：将填充补齐后的查询序列s″＝s″₀，s₁″，...，s″_n-1重新组合为s＝s₀，s₁，...，s_n-1，其中s_i＝s″_{(i mod K)·K+i/K}，i＝0，1，...，n -l，K＝p或2p。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学，未经中国人民解放军国防科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710036196.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于流处理的生物序列数据库搜索多层次加速方法无效

专利文献下载