[发明专利]一种基于流式数据处理架构的天文元数据归档方法及系统有效
申请号: | 201710371260.3 | 申请日: | 2017-05-24 |
公开(公告)号: | CN107317838B | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 徐川;郭航;赵国锋;蔡宇;唐彬 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L9/06 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据处理 架构 天文 数据 归档 方法 系统 | ||
本发明请求保护一种基于流式数据处理架构的天文元数据归档方法及系统,属天文数据处理领域。首先,在数据源部署Agent。Agent实时监控数据源,一旦有新的数据产生,Agent的监控模块会立即解析新的观测数据并生成相应的元数据;其次,Agent的数据采集模块会实时采集监控模块生成的元数据,并通过网络传输到指定元数据归档平台;而后归档平台的缓存模块会实时接收数据源过来的元数据,并将元数据写入分布式缓存队列中;最后归档平台的流式数据处理组件会实时从缓存队列中读取元数据,并处理成时空维度的关联子图写入到图形数据库中。通过实时元数据归档,可减少冗余数据占据的网络带宽,减少系统占用的物理缓存成本,同时保证观测数据的实时共享。
技术领域
本发明属于天文数据处理领域,具体涉及基于流式处理架构的实时天文数据归档系统。
背景技术
随着各地天文观测站的建成和各种高精度观测仪器的使用,天文观测数据呈现了爆发增长的趋势。面对庞大的数据集,如何实现有效管理和检索是提高科研产出的关键问题之一。在实际的天文观测中,FITS文件是天文观测数据的最主要存储格式。FITS包括数据头和数据体。在FITS头中包含着丰富的描述性元数据信息,以基本的key/value形式存储。相对于庞大的原始FITS数据集来说,FITS元数据不仅具有丰富的语义信息,同时在数据量级上要小得多。天文工作者可以通过查看元数据的方式来定位数据集。所以在天文学领域中也常常通过存储元数据的方式,来实现对数据资源的管理。天文数据归档是天文数据存储和检索的重要步骤,其主要思想是基于检索天文元数据信息来定位符合用户限定条件的天文观测数据集,从而达到观测数据共享、减少数据集检索消耗的时间成本的目的。而当前的天文观测数据归档方法特别是远程数据归档往往需要用户上传原始数据集,或者归档平台以周期性扫描数据源的方式进行离线归档,从而导致了大量的观测数据占用过多的网络带宽,占用较大的缓存空间,以及对一些实时性要求比较高的应用来说数据发布的时延过大的问题。而本发明采用数据源先抽取元数据的方式,再将元数据通过网络传输到归档平台进行数据处理。而元数据的数据量级相比原始数据要小的多,因此本发明节约了大量的网络带宽,也降低了时延,提高了实时性,同时减少了归档平台所需要的缓存成本。
流式数据处理平台Storm属于Apache旗下的一个开源项目,是一款高性能的分布式实时流式数据处理平台,近年来已经被应用到许多实时数据处理的场景。通过搭建Storm分布式集群以及设计流数据处理逻辑拓扑,实现海量数据的实时高效处理。同时基于Flume+Kafka+Storm分布式流式数据处理架构近年来已经被应用于许多海量数据处理的场所。其中Apache Kafka是一款高性能消息缓存队列,Apache Flume是一款实时日志采集系统。流式数据处理架构的出现也给天文元数据的归档设计带来了新的契机,可以通过流式数据处理架构来提升归档系统的数据处理能力和实时性。相比传统归档系统中先传输原始数据,然后再采用脚本处理元数据,本发明采用的基于流式数据处理架构的归档方式可提高系统吞吐量同时又可以减少数据处理时延。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种减少了离线归档所占用的临时缓存空间,同时提高了观测数据发布的实时性、使得系统的实时性大大提高,对提高天文数据的应用效率具有较大意义的方法。本发明的技术方案如下:
一种基于流式数据处理架构的天文元数据归档方法,其包括以下步骤:
101、在不同的数据源部署Agent代理,Agent实时监控数据源,一旦有新的原始观测数据产生,Agent的监控模块会立即解析新的原始观测数据并生成相应的元数据;
102、Agent的数据采集模块会实时采集监控模块生成的元数据,并通过网络传输到指定元数据归档平台;元数据归档平台的缓存模块会实时接收数据源发送过来的元数据,并将元数据写入分布式缓存队列中;
103、归档平台的流式数据处理组件实时从缓存队列中读取元数据,并处理成时空维度的关联子图写入到图形数据库中,完成天文元数据归档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710371260.3/2.html,转载请声明来源钻瓜专利网。