[发明专利]一种数据集列序列化的高效连接比对实现方法及装置有效
申请号: | 202111660530.5 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114372097B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 梅纲;吴鑫;高东升;姚艳玲 | 申请(专利权)人: | 北京达梦数据库技术有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/2455 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 向彬 |
地址: | 100000 北京市大兴区北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 序列 高效 连接 实现 方法 装置 | ||
本发明公开了一种数据集列序列化的高效连接比对实现方法及装置。其中方法包括根据数据集A和数据集B的变量,挑出数据集A和数据集B的连接列;对数据集A包含的各连接列合并,以及各非连接列合并得到数据集A′;对数据集B包含的各连接列合并,以及各非连接列合并得到数据集B′;比对数据集A′与数据集B′连接列,根据比对结果,将数据集A′和数据集B′合并为数据集C;根据非连接列数据来源,对数据集C的非连接列进行排列组合,获得数据集A与数据集B的连接结果。本发明将数据集的多个变量合并成一个,使原本需要多列比对的数据,通过一列比对就能完成,缩短了比对的时间;并且,本方法不需要进行对象的排序,减少了排序的性能开销。
技术领域
本发明涉及数据库技术领域,特别是涉及一种数据集列序列化的高效连接比对实现方法及装置。
背景技术
连接是数据集之间进行交互最常见的操作,两个数据集进行关联计算时(如多表查询、增量比对、数据集的聚合等),首先要进行数据集的连接,而连接的本质实际是排序、分组、合并的过程,而如何提升数据集之间连接的效率对于两个数据集进行关联计算至关重要。
以传统ETL(Extract-Transform-Load数据仓库技术)中的连接为例,先要对整个数据集进行排序,然后轮询两个数据集数据,进行数据间的比对。当数据集数据量比较小时,这种方式不存在问题,当数据量很大时,单纯排序就会花费大量的性能开销,使得效率大大的降低。
在实际生产中,常用的数据集连接有三种做法,具体为:
数据集连接做法之一:先将数据集A、B分别以连接列进行排序(同为升序或降序)。以升序为例,将排序好的数据集A和B依次放入队列中,并轮询比较A和B的连接列,如果相同,则分为一组,如果连接列AB,继续轮询B,如果连接列AB,则继续轮询A。此种方式可匹配出连接列相同的数据,分组后进行后续的处理。在此过程中,需要进行数据集A、B的排序,当数据量很大时,效率通常会很低,不利于生产。
数据集连接做法之二:利用传统的Map Reduce方法进行数据集连接操作,而Reduce端连接比Map端连接更为普遍。在Map阶段,把所有数据标记为key,value的形式,其中key为连接列,value为去掉连接列的其它列(可以称为非连接列),为了区分相同的key值对应的value的输入来源,value数组的第一列用来标识来源。在reduce阶段,把每一个key值对应的value集合,根据value的来源拆分为A和B两个部分,遍历A和B组合,得到连接结果。利用做法二获取连接结果的过程中,数据集A、B的连接列中的变量若为多个时,需要逐一变量内的对象进行比对,并且在进行对象间的比对过程中,需要将对象存储起来,再进行比对。存储过程中不仅存储了对象的信息,而且还会存储对象的附属信息,当对象的数据量很大时,会极大的占用系统内存,在进行比较和传输过程中会产生一定的性能耗损。
数据集连接做法之三:使用Flink提供的join算子或者coGroup算子,可以对数据集进行联合分组,其底层仍是Map Reduce的方式,先合并两个数据集,然后根据连接列进行分组,最后将同组内的数据根据来源分到不同的List中。此过程虽然利用了数据建模的方法,然而并没有脱离传统Map Reduce的做法,相应的弊端在此做法中同样存在。
鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。
发明内容
本发明要解决的技术问题是在传统数据集之间进行连接合并时,因变量多造成逐一比对缓慢,效率低下以及序列化过程中存储带来的性能上的消耗问题。
本发明采用如下技术方案:
第一方面,本发明提供了一种数据集列序列化的高效连接比对实现方法,包括:
根据数据集A和数据集B的变量,挑选出数据集A和数据集B的连接列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达梦数据库技术有限公司,未经北京达梦数据库技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111660530.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置