[发明专利]支持左外连接的应用驱动数据生成中依赖关系生成方法及系统有效
申请号: | 202110509294.0 | 申请日: | 2021-05-11 |
公开(公告)号: | CN113434540B | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 翁思扬;王清帅;张蓉 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/2455 |
代理公司: | 上海德禾翰通律师事务所 31319 | 代理人: | 夏思秋 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持 连接 应用 驱动 数据 生成 依赖 关系 方法 系统 | ||
本发明公开了一种支持左外连接的应用驱动数据生成中依赖关系生成方法,包括如下步骤:分析主键状态,对于给定的数据库结构及原始查询语句,计算左外连接中主键列所在查询子树的查询结果,标记主键的留存状态,并对主键的留存状态进行统计;计算主键过滤比例,根据给定的左外连接约束计算每种状态的主键过滤比例;填充外键,根据过滤比例随机无重复地填充外键,并在处理过程中采用溢写文件的方式压缩内存使用量。本发明还公开了实现上述方法的系统。相比于现有技术,本发明具有特征提取优势,真实性约束优势,数据压缩优势。
技术领域
本发明属于数据库技术以及数据合成技术领域,尤其涉及一种支持左外连接的应用驱动数据生成中依赖关系生成方法及系统。
背景技术
目前,随着网络的发展和个人终端的普及,数据量呈现明显的增长趋势。与此同时,电商、社交媒体的网络平台对数据的分析需求也在不断增加。在这些新场景、新需求中,对数据库重新进行性能评测成为需要面临的一种新的挑战。而在数据库性能评测中,负载生成是一个重要的环节。无论是对于新的数据库组件,还是新的数据负载,模拟具有所需负载特征的数据库实例都有着重要的意义。
在生成所需负载时,一个重要的需求是控制查询的中间结果集的大小。参考文献[1]通过启发式方法得到多个查询实例,可以较为有效地得到预期大小的查询实例,但难以实现生成的并行化。相似的工作还有参考文献[3,6]。除了启发式的方法,参考文献[2]采用了随机抽样和剪枝的技术,也可以在一定程度上满足输出结果集的大小需求,但由于这一方法不考虑查询负载,生成的查询实例与真实查询的一致性难以保证。参考文献[4-5]则是通过已知输出,反向得到对应的查询。这些工作都只能生成较为简单的查询模型,无法生成含有复杂连接条件的查询实例。相对的,参考文献[7-9]则是在提供数据特征的基础上,采用不同方法生成查询,但难以保证生成的查询与实际查询性能接近。
因此,由于难以并行化,生成结果真实性低,生成的查询较为简单等原因,自动生成的负载目前还难以实用化,仅能利用已有测试基准或人工模拟负载进行测试。而正确选取已有负载或人工构建负载均对测试人员的专业性提出了很高的要求,需要测试人员对测试场景、测试需求和数据库原理均有较深的理解。
目前常见的已有负载有很多,而不同的负载针对的是不同的应用场景。例如,针对在线事务处理数据库的负载有TPC-C、TPC-E、SmallBank等,此类负载主要包含读写事务,根据针对的应用业务,复杂程度有所不同。针对在线分析处理数据库的负载有TPC-H,TPC-C和SSB等,其负载主要是复杂查询,包含大规模扫描、多表连接、聚合等。除了针对这两种主要数据库功能的负载,还有混合事务处理和分析处理的CH-benCHmark,评测吞吐能力的YCSB等负载。虽然不同的负载已经包含了大量的应用场景,但实际生产环境中的负载依然与已有负载有着较大的差异,也即,已有负载往往不能有效地体现需求场景中的数据特征。即便存在相近的已有负载,由于数据特征难以精确描述,测试人员也不一定能准确选择正确的负载。因此,利用已有负载得到的评测结果可能不具有很大的现实意义。
基于这一问题,采用负载生成的方式得到精确对应应用场景的负载具有重要的意义。然而,正如前文所述,目前负载生成仍然存在如下的关键问题:
1.数据生成过程中难以满足基数约束,即控制中间结果集的大小,常需要维护庞大且复杂的中间状态。
2.生成结果的真实性难以保证,生成的效率较为低下。
据此对问题进行定义:
定义1-负载真实性:生成的模拟负载应当与真实负载高度相似。即通过模拟负载获取的测试结果和真实负载下的运行结果应当相近或一致。
定义2-满足基数约束:对于查询树中包含左外连接的子节点,需要保证其中间结果满足需求大小和不匹配的比例,以控制算子的执行代价。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110509294.0/2.html,转载请声明来源钻瓜专利网。