[发明专利]能够采集多种构造数据源的通用数据采集系统及采集方法在审
申请号: | 201310459203.2 | 申请日: | 2013-09-30 |
公开(公告)号: | CN103473378A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 苏丹;高崧;吴佳;李坤;吴舜;聂正璞;许大卫;杜剑雯;刘昀;来骥;王黎;李贤;李晓东;李超;刘志伟;杨帆;李雪梅;那琼澜 | 申请(专利权)人: | 国家电网公司;国网冀北电力有限公司信通分公司;北京博望华科科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京五月天专利商标代理有限公司 11294 | 代理人: | 李永联 |
地址: | 100053*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 能够 采集 多种 构造 数据源 通用 数据 系统 方法 | ||
技术领域
本发涉及到ETL(数据抽取、转换和加载)技术,特别是针对关系库和实时数据库等异构数据源的数据抽取技术,具体涉及一种能够采集多种构造数据源的通用数据采集系统及采集方法。
背景技术
经过多年的计算机应用和数据积累,许多商业企业保存了大量的原始数据和各种业务数据,这些数据反映了企业主体的经济动态。数据仓库的出现使数据能够以统一的方式集中存储分析统计,形成有效的信息帮助企业决策。由于企业的信息系统都是逐步建立的缺乏统一的标准和平台,实现对不同系统的数据抽取工作只能通过针对不同的平台开发不同的抽取程序,这样就加大了数据抽取的成本和复杂性。
发明内容
本发明的主要目的在于提供一种能够采集多种构造数据源的通用数据采集系统。通过该系统可以同时对多个不同结构的数据源进行数据采集。
本发明公开了一种能够采集多种构造数据源的通用数据采集系统,包括:数据仓库、采集程序框架和数据源,为每个需要被采集数据的数据源配设相应的驱动模块,对每一个数据源类别的实例编写配置文件,对每个实例分配唯一性标识,一个数据源类别可对应有多个实例,一个实例只能对应一种数据源类型,设置统一的数据存储格式,每个驱动模块需要将采集过来的数据转化为所述存储格式以便存储。
其中所述唯一性标识用于确定数据从哪个数据源实例采集,以及在采集过程中的方法设置。所述方法设置包括,取最大、取最小或平均。
采集程序框架根据所述唯一性标识来决定数据采集方式进而决定启动哪个驱动,驱动模块通过配置文件来获取数据来源信息,采集过来的数据由采集程序框架统一存储。所述数据来源信息包括IP地址和/或端口。
本发明还公开采用上述通用数据采集系统进行数据采集的方法,包括如下步骤:
1)、取得一个需要采集数据的唯一性标识,根据唯一性标识取得所需数据源;
2)、采集程序框架在第一次遇到此数据源时,根据数据源所对应的数据源类型来加载驱动模块,同时加载对应这个数据源的配置文件来确定数据来源的其它参数;
3)、采集程序框架根据唯一性标识取得数据采集方法并把这些信息传递给驱动模块,驱动模块负责把数据从数据源中采集;
4)、采集程序框架接收由驱动模块采集到的标准数据,并存储到数据仓库中。
其中,其它参数是端口、用户名和密码。
其中,在步骤2)中,如果是第二次遇到此数据源则直接从缓存中取得些数据源,不再重新进行步骤2)实例化数据源的过程。
数据采集是信息系统的基础模块,通过本发明可以使企业在开发过程中复用采集程序,减少开发成本,加快实施部署。通过本发明,对于新系统的部署只需要修改配置文件即可实施部署,减少测试和修改时间。
附图说明
图1:数据源结构图;
图2:通用数据采集系统框图。
具体实施方式
下面结合附图对本发明进行具体说明。
如图1所示,为每个需要被采集数据的数据源类型开发相应的驱动模块。并对每一个数据源类别的实例编写配置文件。并对每个实例分配唯一性标识。一个数据源类型可对有多个实例,但一个实例只能对应一种数据源类型,是一对多的关系。
为所有需要被采集的数据进行唯一标识,这个标识主要的目标是确定这个数据从哪个数据源实例采集。以及在采集过程中的方法设置例如:取最大,最小,平均等。
设置统一的数据存储方式,一般来说都是标识、时间、和数据来存储采集过来的数据。每个驱动模块需要将采集过来的数据转化为这种结构以便存储。
采集框架程序根据标识来决定数据采集方式进而决定采集哪个驱动模块,具体的采集工作由具体的驱动模块负责,驱动模块通过配置文件来获取数据来源信息例如:IP地址,端口等。采集过来的数据由框架程序统一存储。
具体而言,包括如下步骤:
1)、取得一个需要采集数据的标识 如标识1,根据标识取得所需数据源;
2)、采集程序框架在第一次遇到此数据源时,根据数据源所对应的数据源类型来加载驱动模块,同时加载对应这个数据源的配置文件来研究数据来源的其它参数。如果是第二次遇到此数据源则直接从缓存中取得些数据源,不再重新实例化;
3)、采集程序框架根据标识1取得数据采集方法并把这些信息传递给驱动模块,驱动模块负责把数据从数据源中采集;
4)、采集程序框架接收由驱动模块采集到的标准数据,并存储到数据仓库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;国网冀北电力有限公司信通分公司;北京博望华科科技有限公司,未经国家电网公司;国网冀北电力有限公司信通分公司;北京博望华科科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310459203.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:智能型矿用地下人员定位及在线监控指挥系统
- 下一篇:计算机辅助电话访问系统