[发明专利]一种分布式计算机集群下的数据采集方法及系统在审
申请号: | 201610319520.8 | 申请日: | 2016-05-13 |
公开(公告)号: | CN105760236A | 公开(公告)日: | 2016-07-13 |
发明(设计)人: | 何杰;王辉;武文斌;李致波 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;H04L29/08 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 计算机 集群 数据 采集 方法 系统 | ||
技术领域
本发明涉及计算机数据传输领域,尤指一种分布式计算机集群下的数据采集方法及系统。
背景技术
随着分布式计算、网格计算和并行计算等技术的发展,银行计算机系统越来越朝着分布式集群方向演化,由多台不同类型的计算机协作配合,完成对业务的处理。
在银行系统的计算机集群中,数据分散在各个计算机上,数据的集中采集比较困难,比如日志信息。目前通用的数据采集方法是设立专门的应用系统去集中采集数据,为避免给计算机集群系统带来性能压力,该类数据采集系统一般都是定期、批量方式去获取各计算机上的源数据,数据获取不及时;同时,为了能准确获取各类数据,还必须人工区分各类数据的来源路径、采集频率等,流程复杂且容易出错,一旦数据出错,又很难发现错误源来自哪个环节。因此,现有的分布式计算机集群环境下的数据采集方法存在不及时、易出错的缺陷,已经无法满足实际应用需要。
发明内容
本发明提出了一种分布式计算机集群下的数据采集方法及系统,可以及时在集群中不同的计算机上获取多种来源数据,大幅缩短数据采集的时间,提高数据采集的效率,同时采用负载均衡单元和内存队列等技术手段,不影响计算机集群系统的稳定性,在具有通用性的前提下,与业务系统隔离,降低了业务系统的改造成本。
为达上述目的,本发明所提供的分布式计算机集群下的数据采集方法,具体包含:复数个消息收集模块分别检测复数个应用服务器的数据状态,当任一所述应用服务器的所述数据状态发生变化时,对应的所述消息收集模块采集所述应用服务器上的增量数据;通过消息转发模块将所述消息收集模块发送的复数个增量数据分别补充处理后合并为更新数据;存储模块将所述更新数据与存储的历史数据比对合并后根据数据类型存储。
在上述分布式计算机集群下的数据采集方法中,优选的,将所述消息收集模块发送的复数个增量数据分别补充处理后合并为更新数据包含:将补充处理后且为同一消息收集模块发送的多条增量数据按时间先后顺序合并一条更新数据和/或将补充处理后且为复数个消息收集模块发送的多条增量数据按时间先后顺序合并一条更新数据。
在上述分布式计算机集群下的数据采集方法中,优选的,所述增量数据包含业务类型信息以及交易数据。
在上述分布式计算机集群下的数据采集方法中,优选的,所述数据状态发生变化时,对应的所述消息收集模块采集所述应用服务器上的增量数据包含:所述信息收集模块初始化后获取交易数据的数据来源;根据所述数据来源以数据流的方式访问数据源并记录数据流状态及读取位置;监控所述数据流状态,当所述数据发生变化时获得所述增量数据。
在上述分布式计算机集群下的数据采集方法中,优选的,所述通过消息转发模块将所述消息收集模块发送的复数个增量数据分别补充处理包含:所述消息转发模块获取所述增量数据的日志;根据所述增量数据,对所述日志中每行记录补充发送所述增量数据的应用服务器的发送端信息和发送时间。
在上述分布式计算机集群下的数据采集方法中,优选的,所述通过消息转发模块将所述消息收集模块发送的复数个增量数据分别补充处理后合并为更新数据还包含:将补充处理后的所述记录按时间顺序合并为更新数据;查询当前所有内存队列的使用状态,根据所述内存队列使用状态分配至少两个内存队列发送所述更新数据;所述两个内存队列包含第一内存队列和第二内存队列;以时间先后顺序将所述更新数据中所有记录依次写入所述第一内存队列,当写入第一内存队列成功时,将写入成功的记录写入第二内存队列中,当写入第二内存队列成功后转存至存储模块。
在上述分布式计算机集群下的数据采集方法中,优选的,所述通过消息转发模块将所述消息收集模块发送的复数个增量数据分别补充处理后合并为更新数据还包含:当所述更新数据中的记录写入第一内存队列失败时或写入第二内存队列失败时,将写入失败的记录重新写入所述第一内存队列。
本发明还提供一种分布式计算机集群下的数据采集系统,所述系统包含:消息转发模块、存储模块和复数个信息收集模块;所述复数个消息收集模块分别设置于复数个业务系统的应用服务器上,用于检测所述应用服务器的数据状态,当所述数据状态发生变化时,采集所述应用服务器上的增量数据;所述消息转发模块与所述复数个消息收集模块相连,用于收集所述复数个消息收集模块获得的增量数据,将复数个增量数据分别补充处理后合并为更新数据;所述存储模块与所述消息转发模块相连,用于将所述更新数据与存储的历史数据比对合并后根据数据类型存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610319520.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置