[发明专利]一种基于Flink的多模数据生成器的构建方法在审

专利信息
申请号: 202111231719.2 申请日: 2021-10-22
公开(公告)号: CN114003476A 公开(公告)日: 2022-02-01
发明(设计)人: 叶枫;李凌;沈丽群 申请(专利权)人: 河海大学
主分类号: G06F11/34 分类号: G06F11/34;G06F16/21
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 王安琪
地址: 210098 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 flink 数据 生成器 构建 方法
【权利要求书】:

1.一种基于Flink的多模数据生成器的构建方法,其特征在于,包括如下步骤:

(1)构建多模数据字典;

(2)构建多模数据生成器;

(3)基于Apache Flink的多模数据生成器配置与部署;

(4)实现多模数据生成器的资源使用状况监控。

2.如权利要求1所述的基于Flink的多模数据生成器的构建方法,其特征在于,步骤(1)中,构建多模数据字典具体为:从Amazon、LDBC和DBpedia获取多模源数据(Customer、Vendor、RegUser、Product、Order、Invoice、Review),该数据集源于UniBench模拟的社交商务场景,其中,Customer、Vendor、RegUser是关系型数据类型,表示客户、供应商和注册用户;Product、Order是Json数据类型,表示商品和订单信息;Invoice代表发票信息,是XML格式;Review代表顾客的反馈,是Key-value类型的数据;SocialNetwork表示的是社交网络数据,其数据类型是图数据;对上述数据开展数据预处理,剔除其中的空值数据和错误数据,进一步核对数据对象之间的关联关系,从而构建多模数据字典,构成了多模数据集的种子数据,多模数据字典的数据结构如下表1所列,该数据字典可进一步扩展;

表1多模数据字典的数据结构

3.如权利要求1所述的基于Flink的多模数据生成器的构建方法,其特征在于,步骤(2)中,构建多模数据生成器,具体包括如下步骤:

(21)设置多模数据生成器用户参数λ,用户可根据需要生成的数据规模调节λ的大小来控制数据生成器生成的数据规模,以GB为计量单位;

(22)根据前述所构建的多模数据字典,实现Java程序,使用伪随机数据生成算法生成固定大小的各种数据(Customer、Vendor、RegUser、Product、Order、Invoice、Review),各种数据的规模与λ成正比关系;

(23)实现Java程序,基于Apache Flink的map算子遍历随机生成的Product和Order数据,并将其转化为Json数据格式;

(24)实现Java程序,基于Apache Flink的map算子遍历随机生成的Invoice数据,并将其转化为XML数据格式;

(25)实现Java程序,对随机生成的Customer和RegUser数据,进行多表及多关系查询,基于Apache Flink的TableSQLAPI生成所需的SocialNetwork图数据;

(26)编写Java程序实现多种数据存储接口用于数据存储与读取。

4.如权利要求1所述的基于Flink的多模数据生成器的构建方法,其特征在于,步骤(3)中,构建基于Flink的多模数据生成器具体包括如下步骤:

(31)将多模数据生成器可运行的程序打包成jar包;

(32)在客户端成功启动Flink集群;

(33)将步骤(31)打包好的jar包从客户端或Flink的Web UI提交给Flink集群。

5.如权利要求4所述的基于Flink的多模数据生成器的构建方法,其特征在于,步骤(31)中,在多模数据生成器的Java功能实现时,使用了Flink的Map算子和TableSQL API来生成多模数据。

6.如权利要求1所述的基于Flink的多模数据生成器的构建方法,其特征在于,步骤(4)中,构建多模数据生成器的资源利用监控具体包括如下步骤:

(41)集成了Prometheus,在客户端配置并启用Prometheus;

(42)在Prometheus的Web UI输入“100–(avg by(instance)(irate(node_cpu{instance=xxx,mode=idle}[5s]))*100)”、“((node_memory_MemTotal_bytes-node_memory_Buffers_bytes-node_memory_Cached_bytes-node_memory_MemFree_bytes-node_memory_Slab_bytes)/node_memory_MemTotal_bytes)*100”两个查询条件,获得该数据生成器的CPU和内存利用率,以便于后续对多模数据生成器的性能做优化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111231719.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top