[发明专利]一种数据处理方法、设备及计算机可读存储介质有效
申请号: | 201811646447.0 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109739828B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 李宗祥;严国友;孙一波;张文启 | 申请(专利权)人: | 咪咕文化科技有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/2458;G06F16/27 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 姚文娴;张颖玲 |
地址: | 100032 北京市西城区德*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 设备 计算机 可读 存储 介质 | ||
本发明实施例公开了一种数据处理方法,该方法包括:设置Hive表的分区,并设置Hive对应的分布式文件系统HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式;其中,第一存储方式包括按照待处理数据的属性存储的方式;设置HDFS的数据节点中存储待处理数据的存储方式为第二存储方式;其中,第二存储方式包括按照待处理数据的属性字段存储的方式;建立Hive、主节点和数据节点之间的映射关系,并基于映射关系设置键值信息;其中,键值信息存储在主节点中;按照第一存储方式和第二存储方式,并基于键值信息对待处理数据执行预定处理。本发明的实施例还公开了一种数据处理设备和计算机可读存储介质。
技术领域
本发明涉及计算机技术领域中的数据处理,尤其涉及一种数据处理方法、设备及计算机可读存储介质。
背景技术
随着大数据处理技术地日渐成熟,Hive框架成为企业构建海量数据仓库的重要工具。Hive框架构建在Hadoop的基础之上,为开发者提供了一套操作Hadoop的结构化查询语言(Structured Query Language,SQL)接口;开发者可以像使用关系型数据库一样使用Hadoop,这极大地简化了海量数据仓库的开发过程,优化了Hadoop大数据处理的性能。Hive的数据存储依赖于Hadoop的HDFS的数据存储机制。Hive将所有的数据都存储在数据表中,但是Hive的表只是逻辑上的概念,Hive中的表实际对应分布式文件系统(HadoopDistributed File System,HDFS)里的一个目录,通过Hive框架将一个HDFS目录里的数据作为一个表来进行处理,当数据存入Hive表中时仍将按照HDFS的存储策略进行存储。
实际开发中Hive处理的数据量会很大,例如有些系统每次需要处理千万级甚至亿级的数据,对Hive的处理性能要求较高;而且,处理的数据都来自于采集的数据文件,这些文件往往非常多而且容量不大,容易形成Hadoop小文件进而导致系统性能的降低。针对上述问题,相对技术中有如下解决方案:第一种是直接使用Hadoop自身的存储机制,第二种是使用SequenceFile机制进行预处理;但是,第一种方案中Hive表对应的目录下会存储所有的数据文件,从而造成Hadoop小文件的问题且系统的性能不高;第二种方案不能直接应用到Hive上;SequenceFile合并后的文件不能反映字段之间的分区信息,所处理的数据集仍然很大;此外,上述两种方案系统加载数据时会加载大量无用的数据,增大了系统的输入/输出(input/output,I/O)开销且降低了系统性能。
发明内容
有鉴于此,本发明实施例期望提供一种数据处理方法、设备及计算机可读存储介质,解决了相对技术中的数据处理方法存在的处理的数据集较大且系统性能不高的问题,降低了系统的I/O开销。
为达到上述目的,本发明的技术方案是这样实现的:
一种数据处理方法,所示方法包括:
设置Hive表的分区,并设置Hive对应的分布式文件系统HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式;其中,所述第一存储方式包括按照所述待处理数据的属性存储的方式;
设置所述HDFS的数据节点中存储所述待处理数据的存储方式为第二存储方式;其中,所述第二存储方式包括按照所述待处理数据的属性字段存储的方式;
建立所述Hive、所述主节点和所述数据节点之间的映射关系,并基于所述映射关系设置键值信息;其中,所述键值信息存储在所述主节点中;
按照所述第一存储方式和所述第二存储方式,并基于所述键值信息对所述待处理数据执行预定处理。
可选的,所述方法还包括:
所述数据节点的每个数据块中存储有同一属性字段对应的同一类别的待处理数据;
所述主节点的每个文件中存储有同一属性对应的同一类别的待处理数据的元数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于咪咕文化科技有限公司,未经咪咕文化科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811646447.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种日志文件处理方法及系统
- 下一篇:一种基于日常作业的学生知识体系分析系统