[发明专利]一种数据处理方法和系统在审
申请号: | 201410048039.0 | 申请日: | 2014-02-11 |
公开(公告)号: | CN103810272A | 公开(公告)日: | 2014-05-21 |
发明(设计)人: | 程渤;陈俊亮;刘传昌 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 任媛;蒋雅洁 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 系统 | ||
技术领域
本发明涉及计算机技术,尤其涉及一种数据处理方法和系统。
背景技术
随着互联网和物联网技术的飞速发展,一个“信息大爆炸”的时代已然来临。企业中,大量的日常业务数据被存储在相应的业务系统中,随着时间的呈现爆炸性的增长;微博、社交网络及各种电子商务网站每时每刻都产生着难以估量的数据;手机,平板电脑及各种各样的传感器,其数量越来越多,产生的数据也越来越难以衡量。然而数据并不等于信息(或称知识)。如何在大量的数据中找到需要的信息,为企业管理人员提供决策的依据,从而产生新业务,创造新利润,成为每个企业亟需解决的问题。
在上述背景下,数据集成与分析技术应运而生,然而,现有的数据集成与分析技术方案大都存在以下缺陷:
(一)整个数据集成与分析过程的设计、运行和管理都集中在一个节点上,因此需要价格昂贵的高性能服务器才能保证处理效率。
(二)数据源支持单一,传统数据集成与分析方案一般只能支持对结构化数据源,如关系型数据库、ERP系统等的支持,对非结构化和半结构化数据源,如网页、XML文件、TXT文件、办公文档等支持不足。
(三)无法高效处理大规模数据集。
(四)可扩展性、兼容性差。现有数据集成与分析技术一般仅对特定的产品具有兼容性,对其他产品一般不兼容。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种数据处理方法和系统。
本发明实施例提供一种数据处理方法,所述方法包括:
抽取指定数据源中的数据;
将抽取的数据加载到分布式文件系统HDFS中;
根据接收的业务规则对HDFS中的数据进行转换处理,得到处理结果;
从HDFS中导出所述处理结果并加载到关系型数据库中。
本发明实施例提供一种数据处理系统,所述系统包括:
抽取模块,用于抽取指定数据源中的数据;
第一加载模块,将抽取的数据加载到分布式文件系统HDFS中;
转换模块,用于根据接收的业务规则对HDFS中的数据进行转换处理,得到处理结果;
第二加载模块,用于从HDFS中导出所述处理结果并加载到关系型数据库中。
由上可知,本发明的技术方案包括:抽取指定数据源中的数据;将抽取的数据加载到分布式文件系统HDFS中;根据接收的业务规则对HDFS中的数据进行转换处理,得到处理结果;从HDFS中导出所述处理结果并加载到关系型数据库中。由此,本发明采用开源的分布式文件系统HDFS作为大数据的存储系统,可以对异构大规模数据源进行集成与分析。本发明对数据源类型没有要求,无需使用价格昂贵的高性能服务器,数据处理效率高,而且兼容性好。
附图说明
图1为本发明提供的一种数据处理方法的实施例的实现流程图;
图2为本发明提供的一种数据处理系统的实施例的结构示意图;
图3为本发明提供的一种数据处理系统的另一实施例的结构示意图;
图4为本发明中数据抽取器的实施例的工作流程图;
图5为本发明中将数据载入HDFS的实施例的工作流程图;
图6为本发明中业务规则输入器的实施例的工作流程图;
图7为本发明从HDFS读取数据的实施例的实现流程图。
具体实施方式
本发明提供的一种数据处理方法的实施例,如图1所示,所述方法包括:
步骤101、抽取指定数据源中的数据;
这里,所述抽取指定数据源中数据包括:确定所述指定数据源是否发生变化;当所述指定数据源发生变化时,抽取所述指定数据源中发生变化的数据。
所述确定所述指定数据源是否发生变化为:根据标记的数据抽取截止标志判断所述指定数据源是否发生变化;所述数据抽取截止标志为每次数据抽取后标记的。
步骤102、将抽取的数据加载到分布式文件系统HDFS中;
步骤103、根据接收的业务规则对HDFS中的数据进行转换处理,得到处理结果;
所述根据接收的业务规则对HDFS中的数据进行转换处理为:使用并行大规模数据集计算框架MapRedcue根据接收的业务规则对HDFS中的数据进行转换处理。
步骤104、从HDFS中导出所述处理结果并加载到关系型数据库中。
在一实施例中,所述方法还包括:
确定收到的业务规则的作业类型;
当所述业务规则的作业类型为Hive作业时,将所述业务规则的作业类型转换成MapReduce作业。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410048039.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种薄膜太阳能电池反压修复机
- 下一篇:太阳能电池组件