[发明专利]一种基于流式数据处理架构的天文元数据归档方法及系统有效
申请号: | 201710371260.3 | 申请日: | 2017-05-24 |
公开(公告)号: | CN107317838B | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 徐川;郭航;赵国锋;蔡宇;唐彬 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L9/06 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据处理 架构 天文 数据 归档 方法 系统 | ||
1.一种基于流式数据处理架构的天文元数据归档方法,其特征在于,包括以下步骤:
101、在不同的数据源部署Agent代理,Agent实时监控数据源,一旦有新的原始观测数据产生,Agent的监控模块会立即解析新的原始观测数据并生成相应的元数据;
102、Agent的数据采集模块会实时采集监控模块生成的元数据,并通过网络传输到指定元数据归档平台;元数据归档平台的缓存模块会实时接收数据源发送过来的元数据,并将元数据写入分布式缓存队列中;
103、归档平台的流式数据处理组件实时从缓存队列中读取元数据,并处理成时空维度的关联子图写入到图形数据库中,完成天文元数据归档,具体包括步骤:
设计Storm Topology实时从缓存消息队列中读取元数据信息,并对每一条元数据信息进行关联性处理,生成Neo4j的Cypher交互语句;
所述对每一条元数据信息进行关联性处理具体包括:
Storm Topology流式数据处理拓扑对每条观测数据的元数据信息抽取空间维度上的二维赤经RA和赤纬DEC坐标信息、所属天区信息,以及时间维度上的具体观测时间,依据不同观测数据元数据在时空维度上的关联特性建立数据模型,处理成一张具有时空维度关联特性的子图。
2.根据权利要求1所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述步骤101在数据源部署Agent,实时监控数据源变化并生成元数据信息,包括:
Agent通过实时识别数据源文件存储目录MD5码的方式来获取数据源动态信息,并通过实时解析观测数据文件的方式来生成相应的元数据信息。
3.根据权利要求2所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述Agent通过实时识别数据源文件存储目录MD5码的方式来获取数据源动态信息,具体实现方法为:
Agent通过设定一个文件目录MD5码观察器,以5s为周期扫描数据源所在文件目录的动态变化,如果数据源向文件目录写入新的观测数据,那么该文件目录的MD5码会发生变化,这时候观察器会依据MD5码的变化获取到新的观测数据文件信息,而后Agent数据解析器会从观测数据中提取元数据信息并按照预定的格式写入文本文件中。
4.根据权利要求1所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述的102步骤Agent的数据采集模块会实时采集监控模块生成的元数据,并通过网络传输到指定元数据归档平台的消息缓存队列具体包括:数据源通过Flume实时采集Agent生成的元数据信息,同时Flume采用Exec Source的方式实时地将采集到的元数据信息发送到归档平台的消息队列。
5.根据权利要求4所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述归档平台的消息队列采用Kafka分布存储,所以数据源和归档平台之间的元数据传输采用Kafka Producer标准。
6.一种基于流式数据处理架构的天文元数据归档系统,其特征在于,包括:
采集模块、缓存模块、数据处理模块及数据库模块,其中所述采集模块部署在不同的数据源,实时监控数据源是否有新的观测数据产生,一旦检测有新的原始观测数据产生,采集模块会实时解析原始观测数据并抽取元数据并发送到归档平台的缓存模块;所述缓存模块用于缓存采集模块发送来的元数据,并采用分布式消息缓存队列;所述数据处理模块的流式数据处理组件会实时从缓存模块实时读取元数据并进行数据处理,最终生成时空维度相关联的子图,并转发给数据库模块;数据库模块,用于存储数据处理模块发送来的生成时空维度相关联的子图,设计Storm Topology实时从缓存消息队列中读取元数据信息,并对每一条元数据信息进行关联性处理,生成Neo4j的Cypher交互语句;
所述对每一条元数据信息进行关联性处理具体包括:
Storm Topology流式数据处理拓扑对每条观测数据的元数据信息抽取空间维度上的二维赤经RA和赤纬DEC坐标信息、所属天区信息,以及时间维度上的具体观测时间,依据不同观测数据元数据在时空维度上的关联特性建立数据模型,处理成一张具有时空维度关联特性的子图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710371260.3/1.html,转载请声明来源钻瓜专利网。