[发明专利]一种基于HDFS的电梯数据的列式文件存储系统及方法在审

专利信息
申请号: 201711465597.7 申请日: 2017-12-28
公开(公告)号: CN108319652A 公开(公告)日: 2018-07-24
发明(设计)人: 万敏;张仪;丁凌峰;张雷;陈小游 申请(专利权)人: 浙江新再灵科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州天昊专利代理事务所(特殊普通合伙) 33283 代理人: 董世博;何碧珩
地址: 310051 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 电梯 实时状态数据 文件存储系统 电梯数据 数据源层 触发 存储 数据加载模块 索引管理模块 文件处理系统 文件管理模块 数据标准化 文件处理层 上报 存储系统 高吞吐量 技术难题 数据存储 文件格式 文件系统 系统设计 扩展性 容错性 访问
【说明书】:

本发明提供一种基于HDFS的电梯数据的列式文件存储系统,包括存储系统层、文件处理系统层和数据源层,其中,数据源层包括电梯实时状态数据和电梯触发类数据,电梯实时状态数据每秒上报一条,电梯触发类数据当电梯发生改变时上报,文件处理层包括数据加载模块、数据标准化模块、文件管理模块和索引管理模块。本系统设计基于HDFS及ElasticSearch技术,设计一套存储方案用于解决这个技术难题,其中HDFS是一个高度容错性的文件系统,具备高度的扩展性,辅以parquet列式存储文件格式,能提供高吞吐量的数据存储及访问能力。

技术领域

本发明涉及大数据存储领域,特别涉及到开源大数据组件parquet及HDFS的应用。

背景技术

在梯联网行业,电梯会搭载多种感应设备以采集电梯运行状态数据,包括电梯运行速度、轿厢温度、人体感应等,这类数据特点为数据种类繁多、规模庞大、上报频率高以及时序性强,这四个特点决定了对于电梯运行状态数据的存储、分析难度较大,梯联网场景下,大量采集电梯运行参数数据,对于数据存储及检索都存在较大的性能瓶颈。

中国发明专利申请CN 106919675公开了一种数据存储方法及装置,根据接收到的待存储的数据,在所述数据中查找预设的第一字段,将所述数据存储到ElasticSearch中,并根据所述预设的第一字段建立索引并保存;根据接收到的所述待存储的数据,在所述数据中获取预设的第二字段,将所述数据存储到Parquet中,并在目标目录下建立索引并保存。该技术方案未明确Parquet文件存储介质,不具备大规模数据存储的扩展性及平滑扩容,存在技术风险,该技术方案未设计分区存储方案,ElasticSearch和Parquet同步进行的处理方式在对批量数据的拉取处理中可能会存在拖慢进程和秩序混乱的问题。

发明内容

本发明首先要解决的技术问题是提供一种基于HDFS的电梯数据的列式文件存储系统,包括存储系统层、文件处理系统层和数据源层,其中,数据源层包括电梯实时状态数据和电梯触发类数据,电梯实时状态数据每秒上报一条,电梯触发类数据当电梯发生改变时上报,文件处理层包括数据加载模块、数据标准化模块、文件管理模块和索引管理模块,数据加载模块连接至数据源层,对其中的数据进行加载和排序,进入缓存;数据标准化模块对分布式缓存数据库中的数据按照文件分区规则和业务逻辑生成Parquet文件,存储系统层包括分布式文件系统和全文索引系统,文件管理模块用于管理分布式文件系统中的文件夹及Parquet文件,索引管理模块根据Parquet文件目录来管理全文索引系统。

进一步地,文件分区规则是首先按时间分区,在按时间分区的基础上根据文件大小进行分区。

进一步地,文件格式规则是利用Parquet配置文件中的message部分进行约束。

本发明还提供一种基于HDFS的电梯数据的列式文件存储方法,该方法应用上述的系统,并包括以下步骤:

(1)数据加载;

(1.1)使用流式计算引擎spark streaming从消息总线kafka中获取电梯实时数据及电梯触发类数据;

(1.2)在spark streaming的窗口期以时间为维度对数据进行倒序排序;

(1.3)将排序后的数据按照数据种类分别存储到数据缓存队列中;

(2)数据标准化;

(2.1)读取Parquet配置文件;

(2.2)分批次循环读取数据缓存队列中的数据;

(2.3)根据Parquet配置文件将数据生成Parquet文件;

(2.4)将文件存放到临时目录;

(3)创建文件目录;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江新再灵科技股份有限公司,未经浙江新再灵科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711465597.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top