[发明专利]创建数据库表的样本的方法、系统和计算机可读存储介质有效
申请号: | 201480046615.6 | 申请日: | 2014-06-26 |
公开(公告)号: | CN105493085B | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | T·L·韦德惠泽恩 | 申请(专利权)人: | 洛吉奇布洛克斯公司 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/22 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 刘凤香 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 查询 大小 估计 显著 采样 | ||
用于查询大小估计的显著性采样包括识别出一数据库表中的两个或更多列,其在一个或多个其他表中具有相应的列。对所识别出的列中的每一列的域应用一个或多个散列函数。对第一列的域应用第一散列函数,并且对第二列的域应用第二散列函数。选择数据库表中的行的子集。所述选择包括选择数据库表中的其中第一散列函数的结果满足第一数值阈值的各行,以及选择数据库表中的其中第二散列函数的结果满足第二数值阈值的各行。创建对应于数据库表的样本数据库表。所述样本数据库表包括数据库表中的行的所选子集。
相关申请的交叉引用
本申请要求2013年7月9日提交的美国申请No.61/844045的权益,通过引用的方式将其全部内容合并在此。
背景技术
本发明总体上涉及数据库操作,更具体来说涉及提供用于数据库查询大小估计的样本数据。
数据库管理系统允许用户查询大的信息总集。存在数据库管理系统可以潜在地采用来对给定的查询作出应答的许多执行计划。查询优化是其中数据库管理系统估计若干候选计划的成本并且选择具有最低成本的候选计划的处理。
数据库查询成本估计中的重要步骤是估计常常影响与数据库查询相关联的计划的成本的中间查询结果的大小。数据库系统旨在以相对小的努力准确地估计这些大小,而并不实际执行查询。有若干种技术常被用于估计这样的大小。用于估计查询结果大小的总的一类技术被称作采样。在采样过程中,系统从其中一个或多个参与的表获得样本,并且在样本上实施查询的变型。对样本上的查询结果大小进行适当地缩放,以便估计全部数据集合上的查询的大小。
采样还可以被用于与查询优化分开的其他多种估计任务。举例来说,如果只需要对于查询结果的粗略估计,则对于具有适当大小的样本的处理常常被用来提供准确性与计算时间之间的良好平衡。
发明内容
一些实施例包括一种用于创建数据库表的样本的方法、系统和计算机程序产品。识别出一数据库表中的两个或更多列,其在一个或多个其他表中具有相应的列。所述两个或更多列包括第一列和第二列。对所识别出的列中的每一列的域应用一个或多个散列函数。所述应用包括对第一列的域应用第一散列函数,以及对第二列的域应用第二散列函数。基于应用所述一个或多个散列函数的结果选择数据库表中的行的子集。所述选择包括选择数据库表中的其中第一散列函数的结果满足第一数值阈值的各行,以及选择数据库表中的其中第二散列函数的结果满足第二数值阈值的各行。创建对应于数据库表的样本数据库表。所述样本数据库表包括数据库表中的行的所选子集。
通过本发明的技术将会认识到附加的特征和优点。在这里详细描述了本发明的其他实施例和方面,并且其被视为所要求保护的本发明的一部分。为了更好地理解本发明的优点和特征,应参照后面的描述和附图。
附图说明
在说明书的末尾处特别指出并且在权利要求书中明确地要求保护被视为本发明的主题。通过后面结合附图作出的详细描述,本发明的前述和其他特征和优点将是显而易见的,其中:
图1描绘出通过几何方式示出了如何能够根据一个实施例在二维中进行采样的图表;
图2描绘出通过几何方式示出了如何能够根据一个实施例在三维中进行采样的图表;
图3描绘出根据所提出的采样技术的二维查询的原始和散列空间视图的实例;
图4描绘出根据一个实施例的所采样的数据以及连接样本的结果的一个实例;
图5描绘出根据一个实施例的用于查询大小估计的显著性采样的流程图;以及
图6描绘出根据一个实施例的可以在其上实施用于查询大小估计的显著性采样的系统的方框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于洛吉奇布洛克斯公司,未经洛吉奇布洛克斯公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480046615.6/2.html,转载请声明来源钻瓜专利网。