[发明专利]一种基于Flink的多模数据生成器的构建方法在审
申请号: | 202111231719.2 | 申请日: | 2021-10-22 |
公开(公告)号: | CN114003476A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 叶枫;李凌;沈丽群 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F16/21 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王安琪 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 flink 数据 生成器 构建 方法 | ||
1.一种基于Flink的多模数据生成器的构建方法,其特征在于,包括如下步骤:
(1)构建多模数据字典;
(2)构建多模数据生成器;
(3)基于Apache Flink的多模数据生成器配置与部署;
(4)实现多模数据生成器的资源使用状况监控。
2.如权利要求1所述的基于Flink的多模数据生成器的构建方法,其特征在于,步骤(1)中,构建多模数据字典具体为:从Amazon、LDBC和DBpedia获取多模源数据(Customer、Vendor、RegUser、Product、Order、Invoice、Review),该数据集源于UniBench模拟的社交商务场景,其中,Customer、Vendor、RegUser是关系型数据类型,表示客户、供应商和注册用户;Product、Order是Json数据类型,表示商品和订单信息;Invoice代表发票信息,是XML格式;Review代表顾客的反馈,是Key-value类型的数据;SocialNetwork表示的是社交网络数据,其数据类型是图数据;对上述数据开展数据预处理,剔除其中的空值数据和错误数据,进一步核对数据对象之间的关联关系,从而构建多模数据字典,构成了多模数据集的种子数据,多模数据字典的数据结构如下表1所列,该数据字典可进一步扩展;
表1多模数据字典的数据结构
3.如权利要求1所述的基于Flink的多模数据生成器的构建方法,其特征在于,步骤(2)中,构建多模数据生成器,具体包括如下步骤:
(21)设置多模数据生成器用户参数λ,用户可根据需要生成的数据规模调节λ的大小来控制数据生成器生成的数据规模,以GB为计量单位;
(22)根据前述所构建的多模数据字典,实现Java程序,使用伪随机数据生成算法生成固定大小的各种数据(Customer、Vendor、RegUser、Product、Order、Invoice、Review),各种数据的规模与λ成正比关系;
(23)实现Java程序,基于Apache Flink的map算子遍历随机生成的Product和Order数据,并将其转化为Json数据格式;
(24)实现Java程序,基于Apache Flink的map算子遍历随机生成的Invoice数据,并将其转化为XML数据格式;
(25)实现Java程序,对随机生成的Customer和RegUser数据,进行多表及多关系查询,基于Apache Flink的TableSQLAPI生成所需的SocialNetwork图数据;
(26)编写Java程序实现多种数据存储接口用于数据存储与读取。
4.如权利要求1所述的基于Flink的多模数据生成器的构建方法,其特征在于,步骤(3)中,构建基于Flink的多模数据生成器具体包括如下步骤:
(31)将多模数据生成器可运行的程序打包成jar包;
(32)在客户端成功启动Flink集群;
(33)将步骤(31)打包好的jar包从客户端或Flink的Web UI提交给Flink集群。
5.如权利要求4所述的基于Flink的多模数据生成器的构建方法,其特征在于,步骤(31)中,在多模数据生成器的Java功能实现时,使用了Flink的Map算子和TableSQL API来生成多模数据。
6.如权利要求1所述的基于Flink的多模数据生成器的构建方法,其特征在于,步骤(4)中,构建多模数据生成器的资源利用监控具体包括如下步骤:
(41)集成了Prometheus,在客户端配置并启用Prometheus;
(42)在Prometheus的Web UI输入“100–(avg by(instance)(irate(node_cpu{instance=xxx,mode=idle}[5s]))*100)”、“((node_memory_MemTotal_bytes-node_memory_Buffers_bytes-node_memory_Cached_bytes-node_memory_MemFree_bytes-node_memory_Slab_bytes)/node_memory_MemTotal_bytes)*100”两个查询条件,获得该数据生成器的CPU和内存利用率,以便于后续对多模数据生成器的性能做优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111231719.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隔离开关及隔离开关状态检测方法
- 下一篇:微透镜结构、显示屏幕及电子设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置