[发明专利]一种基于Flink的多模数据生成器的构建方法在审
申请号: | 202111231719.2 | 申请日: | 2021-10-22 |
公开(公告)号: | CN114003476A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 叶枫;李凌;沈丽群 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F16/21 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王安琪 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 flink 数据 生成器 构建 方法 | ||
本发明公开了一种基于Flink的多模数据生成器的构建方法,包括如下步骤:(1)构建多模数据字典;(2)构建多模数据生成器;(3)基于Apache Flink的多模数据生成器配置与部署;(4)实现多模数据生成器的资源使用状况监控。本发明公开的一种基于Flink的多模数据生成器能够生成包括关系、键值、图、Json、XML多种模型的数据,同时用户可以根据自己的需求来生成所需大小的数据;该多模数据生成器是基于Flink平台实现和部署的,利用了Flink的并行处理和主动内存管理机制来实现其高效性和扩展性,还集成了Prometheus,对其进行更加细粒度的资源利用情况。
技术领域
本发明涉及软件功能度量和数据库基准测评技术领域,是一种基于Flink的多模数据生成器的构建方法。
背景技术
在大数据时代,研究人员越来越重视数据的处理和利用,各种大数据的工具和平台也不断涌现和发展。当前,一个亟待解决的大数据问题是如何利用大规模的多模数据(multi-model data)对众多的大数据工具和平台开展基准测评(benchmarking),这对不同大数据工具、平台的选型、优化至关重要。但是,在现实世界中,获取大规模、真实的多模数据是非常困难的。首先,由于专有系统的机密性,商业合同和记录的隐私性,大多数业务数据所有者不愿共享其真实数据。其次,就多模数据的固有稀缺性而言,难以获得包含各种类型(结构化、半结构化或非结构化)的、有代表性的数据集。最后,若通过Internet获取大规模多模数据或通过智能设备获取大型数据集则需要高昂的成本花费。
要解决上述问题,一种实用、可行方法是基于小规模、真实的多模数据,以其作为种子数据,通过构建多模数据生成器来生成所需的数据集。从业界的研究和应用现状来看,现有的数据生成器并不完备,往往只包括一种数据模式,缺乏聚焦于生成多模大数据的生成器,并且在多模数据生成的并行计算能力和监测机制方面也有值得研究的空间。
发明内容
本发明所要解决的技术问题在于,提供一种基于Apache Flink的多模数据生成器的构建方法,能够将小规模的真实数据集作为种子数据,并利用Apache Flink的并行处理和主动内存管理机制,在线性总时间内快速生成大规模的多模合成数据。
为解决上述技术问题,本发明提供一种基于Apache Flink的多模数据生成器的构建方法,包括如下步骤:
(1)构建多模数据字典;
(2)构建多模数据生成器;
(3)基于Apache Flink的多模数据生成器配置与部署;
(4)实现多模数据生成器的资源使用状况监控。
优选的,步骤(1)中,构建多模数据字典的过程可描述为:从Amazon、LDBC和DBpedia获取多模源数据(Customer、Vendor、RegUser、Product、Order、Invoice、Review)。该数据集源于UniBench(http://udbms.cs.helsinki.fi/?projects/ubench)模拟的社交商务场景(社交网络与电子商务环境结合)。其中,Customer、Vendor、RegUser是关系型数据类型,表示客户、供应商和注册用户;Product、Order是Json数据类型,表示商品和订单信息;Invoice代表发票信息,是XML格式;Review代表顾客的反馈,是Key-value类型的数据;SocialNetwork表示的是社交网络数据,其数据类型是图数据。对上述数据开展数据预处理,剔除其中的空值数据和错误数据,进一步核对数据之间的关联关系,构建多模数据字典,构成了多模数据集的种子数据。多模数据字典的数据结构如下表1所列。该数据字典可进一步扩展,如增加客户的兴趣数据和供应商的位置信息数据。
表1多模数据字典的数据结构
优选的,步骤(2)中,构建多模数据生成器的步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111231719.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隔离开关及隔离开关状态检测方法
- 下一篇:微透镜结构、显示屏幕及电子设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置