[发明专利]流式实时处理线上生产数据的装置和方法在审
申请号: | 201811388835.3 | 申请日: | 2018-11-21 |
公开(公告)号: | CN111209278A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 任文治;袁建军 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/27 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 陈舒维;宋志强 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实时处理 线上 生产 数据 装置 方法 | ||
本发明公开了一种流式实时处理线上生产数据的装置和方法。在本发明中,基于流式处理方式实时读取的多个数据源的线上生产数据可以转存为键值对格式的单数据源分表,并且,各数据源的键值对格式的单数据源分表可以周期性地合并为多数据源宽表以实现多数据源的整合,从而,能够以可观的消费效率、并在保证数据完整性的前提下实现多数据源的整合,从而,本发明能够以可观的消费效率、并在保证数据完整性的前提下实现低开发成本的多数据源整合,以满足对数据实时性的需求。而且,多数据源宽表即可以提供给分布式文件系统以实现相对简单的数据核对,还可以反馈给分布式发布订阅消息系统用于下游业务使用。
技术领域
本发明涉及大数据的数据加工领域,特别涉及一种流式实时处理线上生产数据的装置、一种流式实时处理线上生产数据的方法、以及一种数据处理设备和一种非瞬时计算机可读存储介质。
背景技术
随着大数据的发展,需要加工的数据量也不断地增长。基于这样的情况,传统的离线T+1加工方式很难保证时效性,难以满足从业务角度对数据实时性的需求。
发明内容
本发明的一个实施例提供了一种流式实时处理线上生产数据的装置,包括:
数据接入模块,所述数据接入模块基于流式处理方式从分布式发布订阅消息系统读取多个数据源的线上生产数据;
数据缓冲模块,所述数据缓冲模块将各数据源的线上生产数据转存为键值格式的单数据源分表;
数据合并模块,所述数据合并模块周期性地将各数据源的键值对格式的单数据源分表合并为多数据源宽表。
可选地,所述数据接入模块通过调用针对流数据和批数据的分布式处理引擎读取线上生产数据。
可选地,各数据源的线上生产数据在分布式发布订阅消息系中按照主键对分区存储,所述数据接入模块从各分区并行读取各数据源的线上生产数据。
可选地,所述数据缓冲模块在分布式面向列的数据库中转存键值对格式的单数据源分表。
可选地,所述数据缓冲模块根据预先针对各数据源设置的配置文件在对应的单数据源分表中设定主键标识、数据库行键、表间关联字段、以及是否存在针对更新操作的修改内容字段。
可选地,所述数据缓冲模块将线上生产数据中的新增数据直接转换为键值对格式、将更新数据进行数据覆盖后转换为键值对格式、以及将删除数据增加删除记号后转换为键值对格式;并且,所述数据缓冲模块将键值对格式的新增数据、更新数据、以及删除数据存入至对应的单数据源分表中,其中,若同一单数据源分表存在多个对应的数据库行键,则所述数据缓冲模块将多个对应的数据库行键拼接;若单数据源分表中存在针对更新操作的修改内容字段,则所述数据缓冲模块进行更新判决。
可选地,所述数据合并模块在关系型数据库中合并得到多数据源宽表。
可选地,所述数据合并模块通过基于结构化查询语言的表间关联实现多数据源宽表的合并。
可选地,所述数据合并模块以预设的时间窗周期性地合并得到多数据源宽表。
可选地,进一步包括:数据生产模块,所述数据生产模块将多数据源宽表存入至分布式文件系统、和/或将多数据源宽表转换为日志格式后提供给分布式发布订阅消息系统。
本发明的另一个实施例提供了一种流式实时处理线上生产数据的方法,包括:
基于流式处理方式从分布式发布订阅消息系统读取多个数据源的线上生产数据;
将各数据源的线上生产数据转存为键值格式的单数据源分表;
周期性地将各数据源的键值对格式的单数据源分表合并为多数据源宽表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811388835.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置