[发明专利]基于Hadoop的饮用水海量数据存储管理方法和系统有效

申请号：	201810787118.1	申请日：	2018-07-16
公开（公告）号：	CN109165207B	公开（公告）日：	2021-11-26
发明（设计）人：	王卫星;杨伟志;林泽鑫;殷惠莉;姜晟;余杰平;黄仲强;姜冰	申请（专利权）人：	华南农业大学
主分类号：	G06F16/21	分类号：	G06F16/21;G06F16/215;G06F16/31;G06F16/35
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	陈宏升
地址：	510642 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了基于Hadoop的饮用水海量数据存储管理方法，包括以下步骤：将实时属性数据存入区域服务器，将区域服务器中的实时属性数据迁移Kafka集群中，并进行数据清洗，将清洗后的实时属性数据存入Hadoop集群中；将Hadoop集群中的实时属性数据根据属性进行第二次分类，将分类后的实时属性数据合并成大文件并生成索引文件；将合并后的大文件和索引文件存入Hadoop集群中。本发明对小文件的实时属性数据根据产生地域、时间后先做一次分类，然后再根据数据的元素类型再做一次分类，最后进行合并存储，这样大大减少了内存的消耗，提高了平台的性能。
搜索关键词：	基于 hadoop 饮用水海量数据存储管理方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于Hadoop的饮用水海量数据存储管理方法，其特征在于，包括以下步骤：对饮用水海量数据进行第一次分类，得到实时属性数据和非结构化数据；其中，所述实时属性数据为小文件，所述小文件的大小不超过预先设置的块大小；将实时属性数据存入区域服务器，将非结构化数据存入Hadoop集群；将区域服务器中的实时属性数据迁移Kafka集群中，并进行数据清洗，将清洗后的实时属性数据存入Hadoop集群中；将Hadoop集群中的实时属性数据根据属性进行第二次分类，将分类后的实时属性数据合并成大文件并生成索引文件；所述大文件的大小超过预先设置的块大小；将合并后的大文件和索引文件存入Hadoop集群中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南农业大学，未经华南农业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810787118.1/，转载请声明来源钻瓜专利网。

上一篇：基于容器的HDFS高可用实现方法
下一篇：一种用于将数据加载到数据库中的方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Hadoop的饮用水海量数据存储管理方法和系统有效

专利文献下载