[发明专利]一种基于马尔可夫链的多表连接在线聚集方法有效
申请号: | 201811093837.X | 申请日: | 2018-09-19 |
公开(公告)号: | CN109308303B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 史英杰;刘怡;郭飞;刘昊 | 申请(专利权)人: | 北京服装学院 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/22;G06F16/2455 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100029 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 马尔可夫链 连接 在线 聚集 方法 | ||
1.一种基于马尔可夫链的多表连接在线聚集方法,其特征在于,包括样本创建和在线聚集两个阶段,在所述样本创建阶段中,结合负载特征为原始数据集创建分层样本,分层依据为查询负载中的分组列集,使得列集在负载中出现的概率以及负载中的分组列集被覆盖的概率达到最大,基于确定好的分组列集以及索引的分布情况,确定各表的连接顺序,在马尔可夫链的游走起点创建分层样本;在所述在线聚集阶段中,对用户提交的多表连接查询语句进行解析,动态选择查询代价最小的样本进行分层采样,并确定从每个样本层中抽取样本的大小,进而估计查询结果及置信区间。
2.如权利要求1所述的方法,其特征在于,在所述样本创建阶段中确定连接顺序方法为,查询语句中参与连接的表有m个,则连接顺序R1-R2-R3…Rm为合理连接顺序的充分必要条件为:对于连接顺序中的任意表Ri,排在Ri前面的表格中至少有一个与Ri有直接连接关系; 在确定连接顺序时,首先根据索引情况为连接图添加方向,若Ri与Rj间存在一条连接边,且Rj在连接列上有索引,则添加方向为Ri到Rj,接下来从Ri开始对有向图进行顶点遍历生成连接序列,产生的连接序列为连接图的生成树;对于环型连接,所生成的连接序列没有包含全部连接关系,在游走完成后,利用剩余的连接关系对游走的连接结果进行进一步筛选,所述m,i,j均为正整数。
3.如权利要求1所述的方法,其特征在于,所述创建分层样本的方法为,将分组列集所在表Rs放置在马尔可夫链随机游走的起始端,游走起始表Rs被分成L个不同的分区,每个分区即分层样本起始层的一层,每层的大小为以该层中所有元组为起点开始游走的路径数之和;扫描Rs各分区内的元组,并计算以任一元组ti为游走起始点的连接结果数,从而创建分层样本起始层,所述L为正整数。
4.如权利要求3所述的方法,其特征在于,所述游走起始点连接结果数的确定方法为,连接图中度为1的表为边缘表,一旦游走过程中遇到边缘表,记录当前游走分支路径条数并改变游走方向,最终的连接结果数为各个分支路径条数的乘积,具体为,给定游走起始元组t,沿着t所在表的所有邻接表开始游走,若连接的邻接表R’在连接图中的连接度小于2,则R’是边缘表,调用游走分支路径条数确定方法计算分支路径的条数;否则R’还能沿着连接序列继续游走,递归调用游走路径连接结果数的确定方法来获取连接结果数,最终将各个分支的连接结果相乘,得到以t为游走起始点的连接结果数。
5.如权利要求4所述的方法,其特征在于,所述的游走分支路径条数确定方法为,给定分支路径的起始元组t及游走方向上的邻接表R,根据R在连接列上的索引获取与t相连接的元组,对元组数进行累加获得分支路径的条数。
6.如权利要求1所述的方法,其特征在于,在所述在线聚集阶段中,样本大小分配算法为,从每个分层中抽取样本的大小为N在L个样本层中的平均值和剩余样本的最小值,若总的样本数量小于N,则将N扩大至N’后重复上述过程,直至找到使得总采样数量最接近N的N’。
7.如权利要求1所述的方法,其特征在于,估计查询结果及置信区间的方法为,起始层样本分别为S1,S2,…,Sm,给定样本Si,该层中每条路径λ被抽取的概率为:
其中B2(t1)为R2中与R1的元组t1满足连接关系的元组,设op(exp(λj))为路径λj所对应的连接结果上的聚集操作,随机变量expp(λj)的取值为:若op为求和操作,expp(λj)=exp(λj);若op为计数操作,expp(λj)=1,给定估计的分组,设该分组样本大小为n,对多表连接聚集结果的无偏估计为:
设估计结果的置信度为ρ,置信区间为其中其中Zρ为标准正态分布的ρ分位数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京服装学院,未经北京服装学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811093837.X/1.html,转载请声明来源钻瓜专利网。