[发明专利]基于Haar变换的实现多维直方图的方法无效
申请号: | 201010604301.7 | 申请日: | 2010-12-24 |
公开(公告)号: | CN102063480A | 公开(公告)日: | 2011-05-18 |
发明(设计)人: | 李阳;何清法;顾云苏;冯柯;蒋志勇;徐岩;谢卫平;李晓鹏;刘荣;贾宗秀 | 申请(专利权)人: | 北京神舟航天软件技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100094*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 haar 变换 实现 多维 直方图 方法 | ||
技术领域
本发明涉及一种在数据库系统中,实现多维直方图的方法,尤其是涉及一种基于Haar变换的实现多维直方图的方法。
背景技术
数据库的很多模块都需要准确的谓词选择率估计,特别是查询优化器部分,需要使用谓词的选择率进行代价估计,从而选择代价最低的计划。从最早的关系数据库管理系统(RDBMS)开始,查询优化就是困扰数据库的一个难题。选择率通常被用来估计符合查询条件的结果行数。谓词选择率通常可以从统计信息的直方图得到。
数据库的统计信息记录着数据库对象(表、索引等)的行数、大小、分布特征等存储信息。当提交到数据库的查询要执行时,数据库查询优化器根据数据库对象上的统计信息进行代价估计,寻求最佳的执行计划。如果没有统计信息可用或者统计信息陈旧,可能会造成数据库按照错误的存取路径读取数据,生成相对来说不是最优的存取方案,按照不是最佳的执行计划运行,从而造成执行效率的低下。
传统的方法是使用直方图存储数据的分布特征,来提供选择率估计的依据。历史上,商业数据库先后使用了等宽直方图、等高直方图、Maxdiff直方图、Compressed直方图等直方图技术。其中Oracle数据库目前采用的就是等高直方图,SQL Server使用的是Maxdiff直方图,而DB2使用的是Compressed直方图。这些直方图都是一维直方图技术,可以提供准确的一维查询选择率估计。但是对于多维查询,这些一维直方图所提供的选择率估计常常是不准确的。这是因为,对于现实的数据库数据,各个属性之间往往是存在某种联系的,而通过一维直方图进行多维选择率估计是基于属性独立性假设的,而这种假设在现实中往往是很少存在的。
多维直方图,是对一维直方图的扩充,但是多维直方图的存储和构造代价都极高,因此各大商业数据库都不采取多维直方图技术,而宁愿使用基于独立性假设的一维直方图技术。也有一种技术希望通过使用多维数据的区别值个数对使用基于独立性假设的一维直方图技术所得到的多维选择率进行修正,从而得到较为准确的多维选择率,但是这种技术的修正结果是总是对使用基于独立性假设的一维直方图技术所得到的多维选择率进行了一定的放大,因此有时候这种方法能取得较好的效果,但是有时候修正的结果会更加偏离实际结果,造成更严重的优化差错。
发明内容
为了实现多维直方图的技术,用于克服使用一维直方图进行多维选择率估计的不准确,本发明提供一种在数据库系统中,基于Haar变换,来实现多维直方图的方法。
为实现上述的发明目的,本发明采用如下的技术方案:
一种基于Haar变换的实现多维直方图的方法,其中包括如下步骤:
步骤1、对于待创建多维统计信息的关系进行随机采样,获取多维统计信息所涉及的属性的属性值,用于构成创建统计信息所基于的多维数据集合;
步骤2、构造一个int型数据分布矩阵,用来存储数据的分布特征;
步骤3、对构造的数据分布矩阵按每一维进行Haar变换;
步骤4、对变换后的矩阵进行消噪处理,选取一定数量的Haar系数以稀疏矩阵的方式存储,得到经Haar变换技术处理后的多维直方图。
在使用数据库的时候,对多维直方图按每一维进行Haar逆变换,重构出数据分布矩阵。
本技术是使用了Haar变换技术对原始的数据分布矩阵进行了有损压缩,从而使得多维的数据联合分布的存储成为可能,而在使用的时候,再将压缩过的矩阵恢复,由于采用了有损压缩过程使用了消噪技术,因此恢复之后的数据分布矩阵基本能够保留原来的分布特征。这种方法是一种时间换空间的方法。本技术的好处在于,不增加巨大时间开销的前题下,使用较小的存储空间保存了多维数据的联合分布,从而使得为多维查询条件提供准确的选择率估计成为可能。
附图说明
下面结合附图和具体实施方式对本发明作进一步的说明。
图1是本发明实现多维直方图的流程图;
图2是实施例中构造的int型数据分布矩阵图;
图3是实施例中Haar变换后的矩阵图;
图4是实施例中Haar逆变换后得到的数据分布矩阵图。
具体实施方式
下面,本发明通过具体实施例来进一步说明本发明的方法流程。
如图1所示,本发明可以包括数据采样、数据分布生成、Haar变换、消噪,以及Haar逆变换五个部分。
1、数据采样
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神舟航天软件技术有限公司,未经北京神舟航天软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010604301.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:交流脉冲电弧焊接方法
- 下一篇:印制线路板