[发明专利]一种基于马尔可夫链的多表连接在线聚集方法有效
申请号: | 201811093837.X | 申请日: | 2018-09-19 |
公开(公告)号: | CN109308303B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 史英杰;刘怡;郭飞;刘昊 | 申请(专利权)人: | 北京服装学院 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/22;G06F16/2455 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100029 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于马尔可夫链的多表连接在线聚集方法,包括样本创建和在线聚集两个阶段,在所述样本创建阶段中,结合负载特征为原始数据集创建分层样本,分层依据为查询负载中的分组列集,使得列集在负载中出现的概率以及负载中的分组列集被覆盖的概率达到最大,基于确定好的分组列集以及索引的分布情况,确定各表的连接顺序,在马尔可夫链的游走起点创建分层样本;在所述在线聚集阶段中,对用户提交的多表连接查询语句进行解析,动态选择查询代价最小的样本进行分层采样,并确定从每个样本层中抽取样本的大小,进而估计查询结果及置信区间。 | ||
搜索关键词: | 一种 基于 马尔可夫链 连接 在线 聚集 方法 | ||
【主权项】:
1.一种基于马尔可夫链的多表连接在线聚集方法,其特征在于,包括样本创建和在线聚集两个阶段,在所述样本创建阶段中,结合负载特征为原始数据集创建分层样本,分层依据为查询负载中的分组列集,使得列集在负载中出现的概率以及负载中的分组列集被覆盖的概率达到最大,基于确定好的分组列集以及索引的分布情况,确定各表的连接顺序,在马尔可夫链的游走起点创建分层样本;在所述在线聚集阶段中,对用户提交的多表连接查询语句进行解析,动态选择查询代价最小的样本进行分层采样,并确定从每个样本层中抽取样本的大小,进而估计查询结果及置信区间。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京服装学院,未经北京服装学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811093837.X/,转载请声明来源钻瓜专利网。