[发明专利]一种大数据流数据处理方法、装置、电子设备及存储介质在审
申请号: | 202111110684.7 | 申请日: | 2021-09-18 |
公开(公告)号: | CN113778996A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 杨万强;毕小根 | 申请(专利权)人: | 上海复深蓝软件股份有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/215;G06F16/23;G06F16/2455;G06F16/2458 |
代理公司: | 南京思拓知识产权代理事务所(普通合伙) 32288 | 代理人: | 苗建 |
地址: | 201103 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据流 数据处理 方法 装置 电子设备 存储 介质 | ||
本申请提供一种大数据流数据处理方法、装置、电子设备及存储介质,该方法包括:获取多个数据源中的源数据;分析源数据是否包含变化标识和/或属性标识;若是,则对源数据进行数据组织并将其发送给消息中间件,对从消息中间件获取的至少一条组织后源数据进行解析,根据主键信息将至少一条组织后源数据匹配到目标数据记录库中;根据目标数据记录库中的数据的属性标识判断目标数据记录库的数据的处理优先顺序,根据目标数据记录库的数据的处理优先顺序形成待处理数据组;根据待处理数据组的变化标识判断待处理数据组的操作标准并形成新的目标数据库。本发明不需要改变原有数据的技术架构,即可解决大数据流数据无序性带来的数据处理问题。
技术领域
本发明涉及数据处理技术领域,特别涉及一种大数据流数据处理方法、装置、电子设备及存储介质。
背景技术
云计算、物联网、移动互连、社交媒体等新兴信息技术和应用模式的快速发展,促使全球数据量急剧增加,推动人类社会迈入大数据时代。面对无穷无尽的数据洪流,我们急需一种手段来帮助我们抓住并思考那些一闪而逝的瞬间。在这样的背景下,流式大数据技术应运而生。通过更快、更完整地获取数据,更快、更充分地挖掘出数据价值,已成为大数据时代各行各业的共识。
由于新时期的流式大数据呈现出实时性、易失性、突发性、无序性、无限性等特征。其中无序性是指在大数据流式计算环境中,各数据流之间、同一数据流内部各数据元素之间是无序的:一方面,由于各个数据源之间是相互独立的,所处的时空环境也不尽相同,因此无法保证数据流间的各个数据元素的相对顺序;另一方面,即使是同一个数据流,由于时间和环境的动态变化,也无法保证重放数据流和之前数据流中数据元素顺序的一致性.这种无序性会因为高并发、网络、集群等因素,若处理不好会带来一系列的问题,主要如下:
1)源端数据修改间隔时间很短,先修改的数据被后处理了,信息错乱
2)源端删除的数据,目标端无法进行删除,形成垃圾数据
3)源端系统数据库发生拆分,目标端数据无法正确处理,后续分析数据失真
4)源端系统数据库归档,目标端数据无法正确处理,后续分析数据失真
如上问题会导致数据错乱、失真,降低整体数据的准确性,在数据发生问题时候难以排查问题所在,数据挖掘时难以真实的发挥其价值,甚至会影响真实的判断。
发明内容
本发明的目的是提供一种大数据流数据处理方法、装置、电子设备及存储介质,解决流数据处理过程中无序性带来的问题。
为了实现上述目的,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供了一种大数据流数据处理方法,包括:获取多个数据源中的源数据;分析所述源数据是否包含变化标识和/或属性标识;若是,则对所述源数据进行数据组织并将其发送给消息中间件,其中,经数据组织后的组织后源数据包含系统、表名、主键、所述变化标识和/或所述属性标识;对从所述消息中间件获取的至少一条组织后源数据进行解析,根据所述主键信息将至少一条所述组织后源数据匹配到目标数据记录库中;根据所述目标数据记录库中的数据的所述属性标识判断所述目标数据记录库的数据的处理优先顺序,根据所述目标数据记录库的数据的处理优先顺序形成待处理数据组;根据所述待处理数据组的所述变化标识判断所述待处理数据组的操作标准并形成新的目标数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海复深蓝软件股份有限公司,未经上海复深蓝软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111110684.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模块化组合式智能储物柜
- 下一篇:一种旋转移动的探测器