[发明专利]一种数据处理方法和系统在审

专利信息
申请号: 201410048039.0 申请日: 2014-02-11
公开(公告)号: CN103810272A 公开(公告)日: 2014-05-21
发明(设计)人: 程渤;陈俊亮;刘传昌 申请(专利权)人: 北京邮电大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京派特恩知识产权代理有限公司 11270 代理人: 任媛;蒋雅洁
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据处理 方法 系统
【说明书】:

技术领域

发明涉及计算机技术,尤其涉及一种数据处理方法和系统。

背景技术

随着互联网和物联网技术的飞速发展,一个“信息大爆炸”的时代已然来临。企业中,大量的日常业务数据被存储在相应的业务系统中,随着时间的呈现爆炸性的增长;微博、社交网络及各种电子商务网站每时每刻都产生着难以估量的数据;手机,平板电脑及各种各样的传感器,其数量越来越多,产生的数据也越来越难以衡量。然而数据并不等于信息(或称知识)。如何在大量的数据中找到需要的信息,为企业管理人员提供决策的依据,从而产生新业务,创造新利润,成为每个企业亟需解决的问题。

在上述背景下,数据集成与分析技术应运而生,然而,现有的数据集成与分析技术方案大都存在以下缺陷:

(一)整个数据集成与分析过程的设计、运行和管理都集中在一个节点上,因此需要价格昂贵的高性能服务器才能保证处理效率。

(二)数据源支持单一,传统数据集成与分析方案一般只能支持对结构化数据源,如关系型数据库、ERP系统等的支持,对非结构化和半结构化数据源,如网页、XML文件、TXT文件、办公文档等支持不足。

(三)无法高效处理大规模数据集。

(四)可扩展性、兼容性差。现有数据集成与分析技术一般仅对特定的产品具有兼容性,对其他产品一般不兼容。

发明内容

为解决现有存在的技术问题,本发明实施例提供一种数据处理方法和系统。

本发明实施例提供一种数据处理方法,所述方法包括:

抽取指定数据源中的数据;

将抽取的数据加载到分布式文件系统HDFS中;

根据接收的业务规则对HDFS中的数据进行转换处理,得到处理结果;

从HDFS中导出所述处理结果并加载到关系型数据库中。

本发明实施例提供一种数据处理系统,所述系统包括:

抽取模块,用于抽取指定数据源中的数据;

第一加载模块,将抽取的数据加载到分布式文件系统HDFS中;

转换模块,用于根据接收的业务规则对HDFS中的数据进行转换处理,得到处理结果;

第二加载模块,用于从HDFS中导出所述处理结果并加载到关系型数据库中。

由上可知,本发明的技术方案包括:抽取指定数据源中的数据;将抽取的数据加载到分布式文件系统HDFS中;根据接收的业务规则对HDFS中的数据进行转换处理,得到处理结果;从HDFS中导出所述处理结果并加载到关系型数据库中。由此,本发明采用开源的分布式文件系统HDFS作为大数据的存储系统,可以对异构大规模数据源进行集成与分析。本发明对数据源类型没有要求,无需使用价格昂贵的高性能服务器,数据处理效率高,而且兼容性好。

附图说明

图1为本发明提供的一种数据处理方法的实施例的实现流程图;

图2为本发明提供的一种数据处理系统的实施例的结构示意图;

图3为本发明提供的一种数据处理系统的另一实施例的结构示意图;

图4为本发明中数据抽取器的实施例的工作流程图;

图5为本发明中将数据载入HDFS的实施例的工作流程图;

图6为本发明中业务规则输入器的实施例的工作流程图;

图7为本发明从HDFS读取数据的实施例的实现流程图。

具体实施方式

本发明提供的一种数据处理方法的实施例,如图1所示,所述方法包括:

步骤101、抽取指定数据源中的数据;

这里,所述抽取指定数据源中数据包括:确定所述指定数据源是否发生变化;当所述指定数据源发生变化时,抽取所述指定数据源中发生变化的数据。

所述确定所述指定数据源是否发生变化为:根据标记的数据抽取截止标志判断所述指定数据源是否发生变化;所述数据抽取截止标志为每次数据抽取后标记的。

步骤102、将抽取的数据加载到分布式文件系统HDFS中;

步骤103、根据接收的业务规则对HDFS中的数据进行转换处理,得到处理结果;

所述根据接收的业务规则对HDFS中的数据进行转换处理为:使用并行大规模数据集计算框架MapRedcue根据接收的业务规则对HDFS中的数据进行转换处理。

步骤104、从HDFS中导出所述处理结果并加载到关系型数据库中。

在一实施例中,所述方法还包括:

确定收到的业务规则的作业类型;

当所述业务规则的作业类型为Hive作业时,将所述业务规则的作业类型转换成MapReduce作业。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410048039.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top