[发明专利]一种基于Flume的将数据存储为文件的方法及装置在审
申请号: | 201810495515.1 | 申请日: | 2018-05-22 |
公开(公告)号: | CN108710694A | 公开(公告)日: | 2018-10-26 |
发明(设计)人: | 陈娟妮;胡清;肖雪;王建华 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 清洗 数据清洗 数据存储 自定义配置 实例化 自定义 存储数据 方法调用 获取目标 预先设置 | ||
本发明提供了一种基于Flume的将数据存储为文件的方法及装置,该方法,包括:预先设置清洗接口;接收针对所述清洗接口的自定义配置信息;根据针对所述清洗接口的自定义配置信息,生成自定义的清洗接口和数据清洗类,其中,所述数据清洗类为所述清洗接口的实现类;利用Flume中的configure()方法获取目标文件名称和所述数据清洗类;利用Flume中的configure()方法实例化所述数据清洗类;利用Flume中的process()方法调用自定义的清洗接口和实例化后的所述数据清洗类对待存储数据进行清洗,获取清洗后的数据,将清洗后的数据存储到所述目标文件名称对应的文件中。本发明能够对数据进行清洗。
技术领域
本发明涉及计算机技术领域,特别涉及一种基于Flume的将数据存储为文件的方法及装置。
背景技术
在数据处理中经常会遇到将数据存储为文件的需求,现有技术中一般将数据进行序列化之后,直接将数据存储为文件。但是,现有技术中无法实现对数据的清洗。
发明内容
本发明实施例提供了一种基于Flume的将数据存储为文件的方法及装置,能够对数据进行清洗。
一方面,本发明实施例提供了一种基于Flume的将数据存储为文件的方法,包括:
预先设置清洗接口;
接收针对所述清洗接口的自定义配置信息;
根据针对所述清洗接口的自定义配置信息,生成自定义的清洗接口和数据清洗类,其中,所述数据清洗类为所述清洗接口的实现类;
利用Flume中的configure()方法获取目标文件名称和所述数据清洗类;
利用Flume中的configure()方法实例化所述数据清洗类;
利用Flume中的process()方法调用自定义的清洗接口和实例化后的所述数据清洗类对待存储数据进行清洗,获取清洗后的数据,将清洗后的数据存储到所述目标文件名称对应的文件中。
进一步地,
所述清洗接口中包括:清洗方法;
所述自定义配置信息中包括:清洗规则;
所述利用Flume中的process()方法调用自定义的清洗接口和实例化后的所述数据清洗类对待存储数据进行清洗,包括:
利用Flume中的process()方法调用所述数据清洗类中的所述清洗方法按照所述清洗规则对所述待存储数据进行清洗。
进一步地,
所述清洗接口中进一步包括:初始化方法;
所述自定义配置信息中进一步包括:解析规则;
进一步包括:
利用Flume中的configure()方法调用所述初始化方法实现所述解析规则;
在所述利用Flume中的process()方法调用所述数据清洗类中的所述清洗方法按照所述清洗规则对所述待存储数据进行清洗之前,进一步包括:
利用Flume中的process()方法调用所述数据清洗类中的所述清洗方法按照所述初始化方法实现的所述解析规则对所述待存储数据进行解析。
进一步地,
该方法进一步包括:
利用Flume中的configure()方法获取所述待存储数据的原始存储路径;
在所述利用Flume中的process()方法调用自定义的清洗接口和实例化后的所述数据清洗类对待存储数据进行清洗之前,进一步包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810495515.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据可视化的方法及装置
- 下一篇:基于电子书的思维导图生成方法及电子设备