[发明专利]特征库的生成方法和装置有效
申请号: | 201510173241.0 | 申请日: | 2015-04-13 |
公开(公告)号: | CN104809175B | 公开(公告)日: | 2018-02-27 |
发明(设计)人: | 朱仲颖;张钦;张黎敏 | 申请(专利权)人: | 上海达梦数据库有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 路凯,胡彬 |
地址: | 201203 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 生成 方法 装置 | ||
技术领域
本发明实施例涉及数据库管理系统的数据采样技术,尤其涉及一种特征库的生成方法和装置。
背景技术
数据库管理系统根据用户输入的SQL(Structured Query Language,结构化查询语言)语句生成对应的执行计划。大多数数据库管理系统,都引入了基于成本的优化器(cost based optimizer,CBO),即数据库管理系统获取执行计划相关的所有信息,通过对这些信息做计算分析,得出所有可行的执行计划中一个代价最小的执行计划作为最终执行计划,以提高数据库管理系统的执行效率。而对数据库记录的采样计算分析,是CBO存在的基石。
对所有记录进行计算分析,固然可以提高CBO的准确性,但是对于海量记录而言,这样的代价太高,反而会降低数据库管理系统的执行效率。所以,如何在海量的记录中,随机地采样,获取特征记录,并生成特征库显得尤为重要。
通常,可认为数据库管理系统中的记录是连续存储的,获取特征库的采样过程一般为:相对当前记录偏移A即步长后,获取一个特征记录,再相对偏移该获取到的特征记录相对偏移A’,获取下一个特征记录;反复此过程,最终得到特征库。
由于数据库中数据分布的不均匀性,目前的数据库管理系统厂商多采用上述随机采样方法获取特征记录,从而生成特征库,但目前公开的资料都没有涉及如何有效地利用随机步长来生成特征库的方法。
发明内容
本发明实施例提供一种特征库的生成方法和装置,以优化特征记录的采集方式。
第一方面,本发明实施例提供了一种特征库的生成方法,包括:
根据预设的初始集元规模以及采样百分比,确定目标集元规模以及目标集元内特征记录的个数;
利用预设的随机种子随机生成个数与所述目标集元内特征记录的个数相同的随机数,并将生成的各随机数保存为初始随机步长数组,各随机数的取值范围均介于0到所述目标集元规模之间;
计算所述初始随机步长数组包含的各随机数之和;
在判断到所述初始随机步长数组包含的各随机数之和与所述目标集元规模一致时,将所述初始随机步长数组作为目标随机步长数组;
根据所述目标集元规模对整个目标记录进行划分;
对于划分得到的各集元,利用所述目标随机步长数组在该集元内获取相应的特征记录,作为该集元对应的样本库;
确定各集元对应的样本库的并集,作为所述整个目标记录的特征库。
第二方面,本发明实施例提供了一种特征库的生成装置,包括:
参数配置模块,用于根据预设的初始集元规模以及采样百分比,确定目标集元规模以及目标集元内特征记录的个数;
初始随机步长数组生成模块,用于利用预设的随机种子随机生成个数与所述目标集元内特征记录的个数相同的随机数,并将生成的各随机数保存为初始随机步长数组,各随机数的取值范围均介于0到所述目标集元规模之间;
目标随机步长数组生成模块,用于计算所述初始随机步长数组包含的各随机数之和;在判断到所述初始随机步长数组包含的各随机数之和与所述目标集元规模一致时,将所述初始随机步长数组作为目标随机步长数组;
特征库生成模块,用于根据所述目标集元规模对整个目标记录进行划分;对于划分得到的各集元,利用所述目标随机步长数组在该集元内获取相应的特征记录,作为该集元对应的样本库;确定各集元对应的样本库的并集,作为所述整个目标记录的特征库。
本发明实施例提供的特征库的生成方法和装置,通过确定目标集元规模,并使用目标集元规模对数据库管理系统存储的指定表中的整个目标记录进行划分得到各集元,通过确定目标集元内特征记录的个数,利用随机种子生成相应的随机数,并将目标集元内特征记录的个数作为初始随机步长数组的容量,得到初始随机步长数组,通过初始随机步长数组包含的各随机数之和与目标集元规模的一致性判断,将符合一致性的初始随机步长数组作为目标随机步长数组,利用目标随机步长数组能够控制在每个集元中采集得到的特征记录的数量,而且集元的目标随机步长数组只需要生成一次就可用于所有集元,从而降低了数据库管理系统采集特征记录的性能开销,减少了CBO分析采集到的特征记录的代价,提高了CBO的分析效率,此外,由于目标随机步长数组包含的各随机数之和与所述目标集元规模一致,对于划分得到的每个集元,可以保证每个集元内获取的特征记录的采样范围覆盖每个集元,能够同时满足采样的随机性及采样率的精确性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海达梦数据库有限公司,未经上海达梦数据库有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510173241.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图片清理的方法、装置以及终端设备
- 下一篇:一种基于关系的数据处理方法和系统