[发明专利]一种基于Flink的多模数据生成器的构建方法在审

专利信息
申请号: 202111231719.2 申请日: 2021-10-22
公开(公告)号: CN114003476A 公开(公告)日: 2022-02-01
发明(设计)人: 叶枫;李凌;沈丽群 申请(专利权)人: 河海大学
主分类号: G06F11/34 分类号: G06F11/34;G06F16/21
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 王安琪
地址: 210098 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 flink 数据 生成器 构建 方法
【说明书】:

发明公开了一种基于Flink的多模数据生成器的构建方法,包括如下步骤:(1)构建多模数据字典;(2)构建多模数据生成器;(3)基于Apache Flink的多模数据生成器配置与部署;(4)实现多模数据生成器的资源使用状况监控。本发明公开的一种基于Flink的多模数据生成器能够生成包括关系、键值、图、Json、XML多种模型的数据,同时用户可以根据自己的需求来生成所需大小的数据;该多模数据生成器是基于Flink平台实现和部署的,利用了Flink的并行处理和主动内存管理机制来实现其高效性和扩展性,还集成了Prometheus,对其进行更加细粒度的资源利用情况。

技术领域

本发明涉及软件功能度量和数据库基准测评技术领域,是一种基于Flink的多模数据生成器的构建方法。

背景技术

在大数据时代,研究人员越来越重视数据的处理和利用,各种大数据的工具和平台也不断涌现和发展。当前,一个亟待解决的大数据问题是如何利用大规模的多模数据(multi-model data)对众多的大数据工具和平台开展基准测评(benchmarking),这对不同大数据工具、平台的选型、优化至关重要。但是,在现实世界中,获取大规模、真实的多模数据是非常困难的。首先,由于专有系统的机密性,商业合同和记录的隐私性,大多数业务数据所有者不愿共享其真实数据。其次,就多模数据的固有稀缺性而言,难以获得包含各种类型(结构化、半结构化或非结构化)的、有代表性的数据集。最后,若通过Internet获取大规模多模数据或通过智能设备获取大型数据集则需要高昂的成本花费。

要解决上述问题,一种实用、可行方法是基于小规模、真实的多模数据,以其作为种子数据,通过构建多模数据生成器来生成所需的数据集。从业界的研究和应用现状来看,现有的数据生成器并不完备,往往只包括一种数据模式,缺乏聚焦于生成多模大数据的生成器,并且在多模数据生成的并行计算能力和监测机制方面也有值得研究的空间。

发明内容

本发明所要解决的技术问题在于,提供一种基于Apache Flink的多模数据生成器的构建方法,能够将小规模的真实数据集作为种子数据,并利用Apache Flink的并行处理和主动内存管理机制,在线性总时间内快速生成大规模的多模合成数据。

为解决上述技术问题,本发明提供一种基于Apache Flink的多模数据生成器的构建方法,包括如下步骤:

(1)构建多模数据字典;

(2)构建多模数据生成器;

(3)基于Apache Flink的多模数据生成器配置与部署;

(4)实现多模数据生成器的资源使用状况监控。

优选的,步骤(1)中,构建多模数据字典的过程可描述为:从Amazon、LDBC和DBpedia获取多模源数据(Customer、Vendor、RegUser、Product、Order、Invoice、Review)。该数据集源于UniBench(http://udbms.cs.helsinki.fi/?projects/ubench)模拟的社交商务场景(社交网络与电子商务环境结合)。其中,Customer、Vendor、RegUser是关系型数据类型,表示客户、供应商和注册用户;Product、Order是Json数据类型,表示商品和订单信息;Invoice代表发票信息,是XML格式;Review代表顾客的反馈,是Key-value类型的数据;SocialNetwork表示的是社交网络数据,其数据类型是图数据。对上述数据开展数据预处理,剔除其中的空值数据和错误数据,进一步核对数据之间的关联关系,构建多模数据字典,构成了多模数据集的种子数据。多模数据字典的数据结构如下表1所列。该数据字典可进一步扩展,如增加客户的兴趣数据和供应商的位置信息数据。

表1多模数据字典的数据结构

优选的,步骤(2)中,构建多模数据生成器的步骤如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111231719.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top