[发明专利]一种用于超大规模药物数据的分级存储优化方法有效
申请号: | 202010009950.6 | 申请日: | 2020-01-06 |
公开(公告)号: | CN111210879B | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 刘昊;杨雁博;魏志强 | 申请(专利权)人: | 中国海洋大学 |
主分类号: | G16C20/90 | 分类号: | G16C20/90 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 梁正贤 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 超大规模 药物 数据 分级 存储 优化 方法 | ||
1.一种用于超大规模药物数据的分级存储优化方法,其特征在于所述方法包括以下步骤:
1)针对超算集群环境的异质性,构建基于分布式多级存储结构的集群存储资源管理系统,将特定的集群存储资源分配给特定的用户、用户组或作业,其中,集群存储资源包括存储集群和计算集群,整个底层存储结构包括四级,分别为:计算集群主存储器,也即是内存储器;以HDD+SSD为主的计算机集群辅助存储器,也即是外存储器;搭建在存储集群上的分布式大数据服务器集群HDD+SSD;光存储结构ODD;基于底层集群存储资源构建存储资源管理系统综合管理调度集群存储资源,存储资源以map、reduce任务槽形式表示,根据事先对执行map和reduce任务所需存储资源的理解,对给定集群主机上任务槽进行配置,在框架层实现并行;
2)根据超算环境下作业运行对资源需求的独特属性,对作业进行特征化处理,划分作业类别,智能化调度作业到作业所需数据块的服务器上;经过对已知作业任务的属性的特征化处理,特征化任务类型分别如下:I/O密集型任务、数据存储密集型任务、数据暂存密集型任务、访问性能要求型任务、带宽性能要求型任务和延迟性能要求型任务;利用已划分特征的任务类别,对提交的作业任务进行智能化分类;存储资源管理系统对已划分属性的超算任务进行智能化分级存储分配,根据已知作业任务I/O特征,匹配作业任务计算所需数据块的存储级别进行计算;
3)设计数据分类模型,应用该数据分类模型对计算机辅助药物设计过程中产生的海量结果数据进行映射存储,并将产生数据分割成数据块分别存储在相应存储级别的服务器上;数据分类模型针对作业任务产生结果数据特征匹配多级存储结构,以最优特征匹配为目标值,遍历整个分级存储系统的各级存储,并存储到所匹配的最优存储模块;
4)针对各级存储结构及其特征属性设计相应的I/O方法,针对系统中各级存储资源的状态特性,动态调度I/O请求,优化各级存储结构I/O调度策略,提高各级存储的I/O性能。
2.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤1)中,在存储集群上搭建分布式可扩展数据库管理系统;搭建分布式数据库管理系统采用非关系型数据库MongoDB,采用哈希分片的数据分片策略,多节点间的自动负载均衡,实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储以及针对海量异构药物数据基于分布式数据集群的衍生服务平台开发。
3.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤1)中,利用光存储结构ODD来存储冷数据。
4.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤1)中,作业任务产生的数据直接存储在其计算节点本地存储设备上,但不适宜存储需大存储容量作业任务的结果数据。
5.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤1)中,基于分布式多级存储结构的存储资源管理系统,将超算环境内的所有物理存储设备整合为统一的存储资源,实现分布式集群存储资源的管理,通过统一的存储接口对外提供分布式文件系统高性能数据存取操作,存储设备相互之间通过网络连接在一起,统一的管理系统进行逻辑虚拟化管理、多链路冗余管理和状态监控、故障维护,共同构成多级存储资源,同时管理用户、用户组、作业对存储资源的访问请求,包括认证用户权限,管理用户存储空间,满足客户弹性存储需求。
6.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤2)中特征化任务类型步骤如下:对超算环境下作业任务进行数据清洗、数据规范化、以及数据特征衍生与提取得到特征全集,对特征全集进行筛选,递归特征消除法得到最优特征子集,所述最优特征子集包括:I/O密集型任务、数据存储密集型任务、数据暂存密集型任务、访问性能要求型任务、带宽性能要求型任务和延迟性能要求型任务。
7.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤3)中,从已有作业任务产生结果数据数据类型中动态学习得到数据分类模型,通过研究、改进、集成多种技术方法,得到对分布式及流动性数据分类的数据分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010009950.6/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置