[发明专利]一种基于大数据技术框架的数据采集方法及装置在审

专利信息
申请号: 201610009427.7 申请日: 2016-01-06
公开(公告)号: CN105677858A 公开(公告)日: 2016-06-15
发明(设计)人: 吴尚远;刘鹏;郭阳;倪书伟;邓康华 申请(专利权)人: 北京国电通网络技术有限公司;深圳市彩讯科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F11/14
代理公司: 北京风雅颂专利代理有限公司 11403 代理人: 李莎;李弘
地址: 100070 北京市丰*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 技术 框架 采集 方法 装置
【说明书】:

技术领域

发明涉及数据处理技术,特别是指一种基于大数据技术框架的数据采 集方法及装置。

背景技术

大数据,或称巨量数据、海量数据,是由数量巨大、结构复杂、类型众 多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的 集成共享,交叉复用形成的智力资源和知识服务能力;从各种各样类型的数 据中,快速获得有价值信息的能力,就是大数据技术。

传统的数据采集技术,因为数据来源比较单一,主要是数据库和文件方 式进行存储,且数据量较小,大多采用比较单一的工具甚至程序脚本就可以 完成数据采集工作,而大数据不仅数据量巨大,而且数据来源丰富,包括批 量日志数据、实时数据、流式数据等,同时数据类型多样,包括结构化数 据、半结构化数据和非结构化数据等。传统的并行数据库追求高度一致性和 容错性,根据CAP理论,难以同时保证其可用性、扩展性和高性能,并不能 够直接应用于大数据处理中。因此,需求一种数据采集方法,以适应大数据 时代的需求。

发明内容

有鉴于此,本发明的目的在于提出一种基于大数据技术框架的数据采集 方法及装置。

基于上述目的本发明提供的一种基于大数据技术框架的数据采集方法, 包括以下步骤:

监听数据流;

判断数据流当前数据类型;

根据数据类型的不同采用不同的数据采集策略;

其中所述数据采集策略包括:

数据库采集策略,用于采集关系型数据,将数据备份至备份库后,生成 数据文件,从备份库采集关系型数据文件;

文件采集策略,用于采集文件型数据,监听服务器的文件目录,定时从 所述文件目录采集文件型数据文件;

系统数据采集策略,用于采集系统产生的实时数据,监听数据流,从所 述数据流中直接采集系统数据文件。

进一步,所述数据库采集策略包括以下步骤:

监听数据流,获取关系型数据文件;

将关系型数据文件保存至服务器;

将关系型数据文件备份至备份库;

从备份库采集关系型数据文件。

进一步,所述文件采集策略包括以下步骤:

监听数据流,获取文件型数据文件;

将文件型数据文件保存至服务器;

制定监听服务器列表;

监听所述监听服务器列表的服务器中的文件目录;

定时从所述文件目录采集文件型数据文件。

进一步,还包括以下步骤:

检测服务器负载,当服务器整体负载低时,线性减少启用的服务器数 量,当服务器整体负载高时,线性增加启用的服务器数量。

本发明还提供一种基于大数据技术框架的数据采集装置,包括依次连接 的业务模块、数据接口、服务器和备份库;所述业务模块用于获取数据流, 并通过所述数据接口将数据流发送至所述服务器;所述服务器用于将所述数 据流保存为数据文件;所述备份库用于备份所述数据文件;

所述数据接口接收数据流时,对数据流的当前数据类型进行判断,若当 前数据类型为关系型数据,则将当前数据备份至备份库后,生成关系型数据 文件,从备份库采集关系型数据文件;若当前数据类型为文件型数据,则监 听服务器的文件目录,定时从所述文件目录采集文件型数据文件;若当前数 据类型为系统产生的实时数据流,则监听数据流,从所述数据流中实时采集 系统数据文件。

进一步,所述数据接口包括关系型数据处理单元、文件型数据处理单元 和系统数据处理单元;

数据接口对数据流的当前数据类型进行判断,所述关系型数据处理单元 用于监听数据流,获取关系型数据文件,将关系型数据文件保存至服务器; 所述文件型数据处理单元用于监听数据流,获取文件型数据文件,将文件型 数据文件保存至服务器;所述系统数据处理单元用于监听数据流,直接获取 并采集系统数据文件。

进一步,所述关系型数据处理单元将关系型数据文件保存至服务器后, 将所述关系型数据文件备份至备份库,从备份库采集关系型数据文件。

进一步,所述文件型数据处理单元将文件型数据文件保存至服务器后, 建立监听服务器列表,监听所述监听服务器列表的服务器中的文件目录;文 件型数据处理单元定时从所述文件目录采集文件型数据文件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国电通网络技术有限公司;深圳市彩讯科技有限公司,未经北京国电通网络技术有限公司;深圳市彩讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610009427.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top