[发明专利]基于日志的生物基因测序的任务模型构建方法有效
申请号: | 201310477025.6 | 申请日: | 2013-10-12 |
公开(公告)号: | CN103559333A | 公开(公告)日: | 2014-02-05 |
发明(设计)人: | 董守斌;曹志波;李粤;张凌 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 蔡茂略 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 日志 生物 基因 任务 模型 构建 方法 | ||
技术领域
本发明涉及高性能计算领域,特别涉及一种基于日志的生物基因测序的任务模型构建方法。
背景技术
自从watson和crick在1953年发现了DNA的双螺旋结构后,生命科学的发展便翻开了新的篇章。而针对DNA的生物基因测序技术则成为整个生命科学发展的基础。另一方面,生物基因测序技术需要海量的计算和存储资源进行快速的测序,因此如果计算资源和存储资源调度不合理的话,会导致资源的利用率低下,进而延迟基因测序的速度。而生物基因测序日志是生物基因测序技术在高性能计算环境下的使用记录,通过分析生物基因测序日志中任务的各项属性(任务的到达时间,任务的并行性,任务的运行时间等),可以很好地掌握生物基因测序使用计算资源的情况。而通过这些任务特性构建具有相同特性的任务模型,则有利于提出一种针对这些特性的集群调度策略,进而优化集群的资源使用率。高性能环境下利用任务日志中的任务特性分为两种:可塑性任务和刚性任务。可塑性任务是指任务的并行度和任务的运行时间是可变的,而刚性任务则指任务的并行度和任务的运行时间是固定不变的。本发明主要针对刚性任务的任务特性进行模型构建,因此以下主要介绍刚性任务方向的任务模型构建的研究情况。
早期针对刚性任务负载的进行建模主要有以下四个特征:任务的并行性(任务使用的CPU数量)、任务的运行时间、用户重复提交的任务数量以及任务的到达时间间隔。首先利用指数分布来模拟任务的到达时间间隔,通过对日志分析模拟出任务的并行性,再通过任务的并行性产生概率p,然后利用这个概率和高阶指数分布模拟出任务的运行时间。需要指出的是这种方法在进行任务时间间隔模拟时,没有考虑任务到达的工作日周期性和休息日周期性。本发明则同时考虑这两种周期特性。而在最近的研究中,研究人员通过分析上述研究中未解决的问题,例如任务到达时间间隔的日周期特性等,然后分析了任务到达的工作日周期性,将一天分为48个时间槽,每个时间槽(1800s)根据其平均到达的任务数,获得正比于任务数的权重,然后采用伽马分布对任务的工作日周期性进行模拟。同时研究人员发现任务的并行性与任务运行时间具有正比关系,且这两个任务特征的对数呈伽马分布,于是,研究人员利用上述信息首先模拟出任务的并行性,然后通过任务的并行性模拟出任务的运行时间。但是并没有分析任务到达时间间隔的工作日周期性和节假日周期性,而是将这两种混合在一起分析了日周期特性。本发明同时考虑了这两种特性。
尽管现有的研究对刚性任务进行了很好的任务模型构建,但是仍然存在待解决的问题,例如任务的工作日周期特性和节假日周期特性的模型构建。因此,本发明在现有研究的基础上针对任务到达时间间隔的工作日周期性和节假日周期性,任务运行时间,任务的并行度以及任务的队列使用特性提出了一种基于日志的针对生物基因测序的任务模型构建方法。
发明内容
本发明的目的在于克服现有技术的缺点与不足,针对从实际环境中采集的生物基因测序日志的任务到达时间间隔,任务的运行时间,任务的并行性,以及任务的队列特性构建一种具有这些任务特性的任务模型。
本发明的目的通过下述技术方案实现:
一种基于日志的生物基因测序的任务模型构建方法,包括以下步骤:
(1)DCModel模块构建,主要利用指数分布和伽马分布来模拟任务的工作日周期性,通过指数分布模拟任务的节假日周期性,最后通过两个指数分布产生任务的时间间隔T;
(2)PRModel模块构建,首先利用伽马分布模拟出任务并行度P,然后利用生物基因测序日志中任务并行度与任务运行时间之间存在重尾分布的特征,利用伽马分布拟合这种特征,然后模拟出任务的运行时间R;
(3)QModel模块构建,首先利用一个伪随机函数发生器对所有要生成的队列进行分类,分为四类LOW,MIDDLE,SUBHIGH,HIGH,针对这四种不同的分类分别采用指数分布,正态分布,伽马分布以及二项分布来生成每个队列的使用率Ui,然后利用队列的使用率Ui同队列日任务到达数目期望之间存在的非线性关系,生成然后通过一个指数分布产生Mi,最后利用Ui,Mi以及一个伪随机函数发生器来产生队列号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310477025.6/2.html,转载请声明来源钻瓜专利网。