[发明专利]一种基于高能物理事例的数据管理与传输方法有效
申请号: | 201810366443.0 | 申请日: | 2018-04-23 |
公开(公告)号: | CN109600413B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 王聪;程耀东;李海波;徐琪;程振京;胡庆宝 | 申请(专利权)人: | 中国科学院高能物理研究所 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100049 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 高能物理 事例 数据管理 传输 方法 | ||
本发明公开了一种基于高能物理事例的数据管理与传输方法,其步骤包括:设置一主站点和若干分站点;在每一分站点上设置一数据传输客户端,在主站点上设置一数据传输服务端;定期将事例数据存储到主站点,以及从事例数据中提取事例特征数据并存储在主站点的事例索引数据库中;分站点接收到物理软件读取事例或文件的请求后,向该分站点的客户端数据缓存服务器发送查询请求;若该分站点存在所请求的事例或文件,则在该分站点读取相关信息返回给物理软件,否则向主站点的数据传输服务端发起数据传输请求,从主站点获取请求的数据并存储到该分站点,以及从获取的数据中提取元数据并存储到该分站点的缓存元数据模块中。本发明支持计算任务实时传输数据。
技术领域
本发明属于海量数据存储领域,具体涉及一种基于高能物理事例的数据管理与传输方法。
背景技术
信息技术的快速发展,个人用户、科学计算、互联网等应用产生了海量的数据。爆炸式增长的数据即将从PB级向EB级迈进,这些数据的存储和高速访问对分布式文件系统在可用性、可扩展性及IO访问性能上提出了新的挑战。在海量存储需求的驱动下,随着磁盘容量和IO速度的提高,网络技术及存储架构设计的进步,诞生了大量高性能、高扩展性、高可用性的分布式文件系统。它们能够支持PB级的存储空间和数千万个甚至上亿个文件,可以动态的通过增加存储服务器和存储介质来增加系统容量、提高聚合访问带宽。然而,这些主流的存储系统,在系统规模不断增大的情形下,或多或少都表现出一定的局限性,从而影响系统的整体性能。面对不断增长的海量数据,需要设计一种新型的数据管理与访问方法,保证系统的可用性、可扩展性不会随着系统规模的增大而受限。
近年来,在网络应用如Amazon、Facebook、Twitter、微博等驱动下,分布式存储发展迅速,涌现出以Amazon的Dynamo、Apache Cassandra、Lustre、Glusterfs、FastDFS等为代表的一大批开源系统。这其中有通用并行文件系统Lustre、Glusterfs等;基于key-value的分布式存储系统Dynamo、Apache Cassandra、FastDFS等,这些存储系统改变了应用访问数据的方式,系统不具备统一的名字空间,而是通过键值对应关系,也可以看做是简单的分布式数据库;还有整合分布式存储系统前沿研究思想的实验文件系统Ceph等。传统高能物理数据处理以ROOT文件为基本存储和处理单位,每个ROOT文件可以包含数千至数亿个事例。这种基于文件的处理方式虽然降低了高能物理数据管理系统的开发难度,但随着实验数据的飞速增长以及新技术的出现,这种传统的数据存储和处理方式也暴露出越来越多的问题。传统的文件级管理面临的挑战为:全数据扫描、筛选时间长,基于文件的缓存效率低,基于文件的传输通信延迟高。在实际的高能物理数据分析过程中,大部分的数据都是物理学家们不感兴趣的数据,而且通过一些条件即可过滤掉,如果条件设置得当,该系统能够帮助物理学家筛选掉甚至99.9%的不感兴趣的数据。这样不仅可以节省I/O资源,还能提高CPU利用率,减少数据分析耗时。
大型高能物理实验往往由国际合作单位共同贡献资源形成分布式计算系统,比如WLCG、BES Grid等。传统的计算方式是事先将数据传输到目标站点,然后再将计算任务调度过去运行。随着网络带宽的提升,全网调度计算任务,数据远程访问成为未来的发展趋势。欧洲大型强子对撞机产生海量数据便是由WLCG(World wide LHC Computing Grid)负责存储和处理的。在WLCG的Tier结构中,数据并不是完全复制到所有的站点中,因此计算任务会被调度到存储数据的地方。如果某个站点需要分析感兴趣的数据,需要提前进行数据订阅,将数据预先传输到指定的站点。当前,网络带宽不断提升,全网进行计算任务的调度,远程进行数据访问成为未来的发展趋势。然而,局域网的时延一般在1ms以下,而广域网的时延通常比较大,比如中国到欧洲的时延能达到200ms左右,在该种情境下,分布式文件系统基本是无法工作的,因此急需要求研究高带宽的远程I/O访问技术。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院高能物理研究所,未经中国科学院高能物理研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810366443.0/2.html,转载请声明来源钻瓜专利网。