[发明专利]OGG到HDFS的同步文件处理方法、装置和计算机设备在审
申请号: | 202111044619.9 | 申请日: | 2021-09-07 |
公开(公告)号: | CN113836224A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 张志亮;赵永国;杨荣霞;曹熙;曾祥清;黎名航 | 申请(专利权)人: | 南方电网大数据服务有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/182;G06F16/178 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王天庆 |
地址: | 510800 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | ogg hdfs 同步 文件 处理 方法 装置 计算机 设备 | ||
本申请涉及一种OGG到HDFS的同步文件处理方法、装置、计算机设备和存储介质。所述方法包括:基于OGG软件对通过OGG软件到HDFS的同步文件的滚动切换时间和文件大小进行限制;基于配置完成的OGG软件,以业务系统产生的增量数据作为同步文件,将所述同步文件准实时同步至HDFS;基于HDFS对通过OGG软件获取的同步文件进行遍历,筛选出所述同步文件中的小文件,并对所述小文件进行合并处理。采用本方法能够提高hadoop集群的稳定性。
技术领域
本申请涉及分布式存储技术领域,特别是涉及一种OGG到HDFS的同步文件处理方法、装置、计算机设备和存储介质。
背景技术
随着hadoop技术的迅速发展应用,越来越多的企业开始基于hadoop平台进行决策分析应用建设,但是很多重要业务生产系统是基于关系型数据库进行部署的,这就意味着需要在两套不同架构平台进行数据交换。常见的方式是采用CDC技术进行数据的准实时同步。
Oracle goldengate(简称OGG)软件是一个成熟的CDC软件,可实现大部分类型的关系型数据库到hadoop大数据平台的数据同步,OGG可以数据库的日志进行增量捕获,准实时推送到hadoop的HDFS分布式存储。
现有技术中,Hadoop擅长存储大文件,因为大文件的元数据信息比较少,当Hadoop集群中有大量的小文件时,每个小文件都需要维护一份元数据信息,会大大的增加集群管理元数据的内存压力,导致了Hadoop集群稳定性降低的缺陷。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高Hadoop集群稳定性的OGG到HDFS的同步文件处理方法、装置、计算机设备和存储介质。
一种OGG到HDFS的同步文件处理方法,所述方法包括:
基于OGG软件对通过OGG软件到HDFS的同步文件的滚动切换时间和文件大小进行限制;
基于配置完成的OGG软件,以业务系统产生的增量数据作为同步文件,将所述同步文件准实时同步至HDFS;
基于HDFS对通过OGG软件获取的同步文件进行遍历,筛选出所述同步文件中的小文件,并对所述小文件进行合并处理。
在其中一个实施例中,还包括:基于OGG软件,对通过OGG软件到HDFS的同步文件的滚动切换时间限制为第一预设时长;
对通过OGG软件到HDFS的同步文件的文件大小限制为第一预设阈值。
在其中一个实施例中,还包括:获取OGG软件所处的业务系统产生的增量数据,将所述增量数据作为同步文件;
基于配置完成的OGG软件,判断所述同步数据的滚动切换时间是否达到所述第一预设时长;
若所述同步数据的滚动切换时间达到了所述第一预设时长,将所述同步文件同步至HDFS。
在其中一个实施例中,还包括:基于配置完成的OGG软件,判断所述同步数据的文件大小是否达到所述第一预设阈值;
若所述同步数据的文件大小达到所述第一预设阈值,将所述同步文件同步至HDFS。
在其中一个实施例中,还包括:基于HDFS对所述同步文件的目录进行遍历,筛选出所述同步文件中的小文件;
在所述同步文件的各子目录中,判断各子目录中的小文件是否符合预设的小文件合并条件;
若同一子目录中的小文件符合合并条件,对同一子目录中的小文件进行合并处理,在同一子目录生成不少于一个合并后的文件;
对合并处理后的小文件进行删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网大数据服务有限公司,未经南方电网大数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111044619.9/2.html,转载请声明来源钻瓜专利网。