[发明专利]一种基于大数据技术框架的数据采集方法及装置在审
申请号: | 201610009427.7 | 申请日: | 2016-01-06 |
公开(公告)号: | CN105677858A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 吴尚远;刘鹏;郭阳;倪书伟;邓康华 | 申请(专利权)人: | 北京国电通网络技术有限公司;深圳市彩讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F11/14 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李莎;李弘 |
地址: | 100070 北京市丰*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 技术 框架 采集 方法 装置 | ||
技术领域
本发明涉及数据处理技术,特别是指一种基于大数据技术框架的数据采 集方法及装置。
背景技术
大数据,或称巨量数据、海量数据,是由数量巨大、结构复杂、类型众 多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的 集成共享,交叉复用形成的智力资源和知识服务能力;从各种各样类型的数 据中,快速获得有价值信息的能力,就是大数据技术。
传统的数据采集技术,因为数据来源比较单一,主要是数据库和文件方 式进行存储,且数据量较小,大多采用比较单一的工具甚至程序脚本就可以 完成数据采集工作,而大数据不仅数据量巨大,而且数据来源丰富,包括批 量日志数据、实时数据、流式数据等,同时数据类型多样,包括结构化数 据、半结构化数据和非结构化数据等。传统的并行数据库追求高度一致性和 容错性,根据CAP理论,难以同时保证其可用性、扩展性和高性能,并不能 够直接应用于大数据处理中。因此,需求一种数据采集方法,以适应大数据 时代的需求。
发明内容
有鉴于此,本发明的目的在于提出一种基于大数据技术框架的数据采集 方法及装置。
基于上述目的本发明提供的一种基于大数据技术框架的数据采集方法, 包括以下步骤:
监听数据流;
判断数据流当前数据类型;
根据数据类型的不同采用不同的数据采集策略;
其中所述数据采集策略包括:
数据库采集策略,用于采集关系型数据,将数据备份至备份库后,生成 数据文件,从备份库采集关系型数据文件;
文件采集策略,用于采集文件型数据,监听服务器的文件目录,定时从 所述文件目录采集文件型数据文件;
系统数据采集策略,用于采集系统产生的实时数据,监听数据流,从所 述数据流中直接采集系统数据文件。
进一步,所述数据库采集策略包括以下步骤:
监听数据流,获取关系型数据文件;
将关系型数据文件保存至服务器;
将关系型数据文件备份至备份库;
从备份库采集关系型数据文件。
进一步,所述文件采集策略包括以下步骤:
监听数据流,获取文件型数据文件;
将文件型数据文件保存至服务器;
制定监听服务器列表;
监听所述监听服务器列表的服务器中的文件目录;
定时从所述文件目录采集文件型数据文件。
进一步,还包括以下步骤:
检测服务器负载,当服务器整体负载低时,线性减少启用的服务器数 量,当服务器整体负载高时,线性增加启用的服务器数量。
本发明还提供一种基于大数据技术框架的数据采集装置,包括依次连接 的业务模块、数据接口、服务器和备份库;所述业务模块用于获取数据流, 并通过所述数据接口将数据流发送至所述服务器;所述服务器用于将所述数 据流保存为数据文件;所述备份库用于备份所述数据文件;
所述数据接口接收数据流时,对数据流的当前数据类型进行判断,若当 前数据类型为关系型数据,则将当前数据备份至备份库后,生成关系型数据 文件,从备份库采集关系型数据文件;若当前数据类型为文件型数据,则监 听服务器的文件目录,定时从所述文件目录采集文件型数据文件;若当前数 据类型为系统产生的实时数据流,则监听数据流,从所述数据流中实时采集 系统数据文件。
进一步,所述数据接口包括关系型数据处理单元、文件型数据处理单元 和系统数据处理单元;
数据接口对数据流的当前数据类型进行判断,所述关系型数据处理单元 用于监听数据流,获取关系型数据文件,将关系型数据文件保存至服务器; 所述文件型数据处理单元用于监听数据流,获取文件型数据文件,将文件型 数据文件保存至服务器;所述系统数据处理单元用于监听数据流,直接获取 并采集系统数据文件。
进一步,所述关系型数据处理单元将关系型数据文件保存至服务器后, 将所述关系型数据文件备份至备份库,从备份库采集关系型数据文件。
进一步,所述文件型数据处理单元将文件型数据文件保存至服务器后, 建立监听服务器列表,监听所述监听服务器列表的服务器中的文件目录;文 件型数据处理单元定时从所述文件目录采集文件型数据文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国电通网络技术有限公司;深圳市彩讯科技有限公司,未经北京国电通网络技术有限公司;深圳市彩讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610009427.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种减少污染的新型胃管
- 下一篇:超声显影的三腔鼻胃管
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置