[发明专利]针对探索性查询的抽样方法有效
申请号: | 201810625076.1 | 申请日: | 2018-06-17 |
公开(公告)号: | CN108776707B | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 邬志罡;郭程浩;毛旭琪;荆一楠;何震瀛;王晓阳 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/2458;G06K9/62 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于数据仓库技术领域,具体为一种针对探索性查询的高效抽样方法。本发明方法包括:根据收集到的用户历史查询记录,将整个数据集划分成若干个抽样块,并构建一棵抽样块索引树来检索所有的抽样块;对于每一个抽样块,根据用户限定的总体样本空间大小限制,生成k个基于优化的分层抽样样本集;运行时,根据用户提交的查询,从抽样块索引树中找到所有有关的抽样块,从每个抽样块中的k个样本集合中取出最优的样本集进行近似结果计算并返回;选取最优样本集时,选出与目标查询分组条件下最优分层抽样策略距离最小的预生成策略;本发明能够成功匹配更多的探索性查询并返回更为精确的结果。 | ||
搜索关键词: | 针对 探索 查询 抽样 方法 | ||
【主权项】:
1.一种针对探索性查询的高效抽样方法,其特征在于,具体步骤如下:(1)记录用户每次发起的近似查询作为用户查询负载;(2)根据收集到的用户查询负载,将整个数据集划分成若干个抽样块,并构建一棵抽样块索引树来检索所有的抽样块,具体过程为:(2.1)对于树的一个节点,首先从用户历史查询记录中找到权重最大的数据过滤属性,将其作为用于分割当前节点代表的数据集的分割属性,计算属性权重的公式为:weight(attr)=majority(attr)×diversity(attr) (1)其中,majority(attr)为属性attr在用户查询记录中出现的频数,diversity(attr)为与该属性attr出现在同一个用户查询中的不同的用于分组的属性的个数;(2.2)得到该节点的分割属性后,利用DBSCAN聚类方法得到该属性代表的维度上的若干个类簇,将这些类簇的边界值作为该节点用于划分生成树的子节点的关键字;(2.3)根据节点的分割属性和相应的划分关键字,划分数据集,生成相应的子节点,并为每个子节点过滤出并记录该子节点代表的子数据集上相关的用户历史查询记录;(2.4)重复步骤(2.1‑2.3),直至与生成的子节点相对应的子数据集上关联的用户查询记录中没有多余的可用于划分数据的属性;将这些子节点标记为抽样块索引树的叶子节点;(2.5)对于所有标记出的抽样块索引树叶子节点,构建抽样块,为每个抽样块保存相关的用户历史查询记录,以供对该抽样块生成具体样本时的抽样策略分析使用;(3)对于每一个抽样块,根据用户限定的总体样本空间大小限制,进行离线样本创建,生成k个基于优化的分层抽样样本集,具体过程为:(3.1)将每种抽样策略即总体样本空间在每个分组上的大小分配策略,抽象为生成的样本集中任意随机样本属于某一分组的概率分布,由此可通过两个概率分布之间的距离来计算两种抽样策略间的距离;其中对于某个分组g,其概率值为:p(g)=Sg/X (2)(2.2)针对每个数据块上的用户历史查询,生成最优的k个抽样策略优化目标公式为:其中,Divergence是用于衡量两个概率分布间距离的公式,Pu是当查询分组条件为u时最优的分层抽样抽样空间分配策略,即对每个分组分配相同大小的抽样空间;(3.3)使用模拟退火算法,训练得出最优的k个抽样策略;(3.4)对于每一种抽样策略,考察每个分组中样本的个数,将样本个数大于平均个数α倍的分组标记为溢出组,将样本个数小于平均个数α倍的分组标记为饥渴组,从溢出组中抽出一定样本空间分配给饥渴组;参数α取值为10;(3.5)根据最终生成的抽样策略,即按照每个分组被分配到的抽样空间大小,在每个分组内进行随机抽样,生成最终的样本集合;(4)运行时,根据用户提交的查询,从抽样块索引树中找到所有有关的抽样块;从每个抽样块中的k个样本集合中进行样本选择,取出最优的样本集进行近似结果计算,并返回;进行样本选择选取最优样本集时,使用与(2.2)中相同的Divergence距离公式,选出与目标查询分组条件下最优分层抽样策略距离最小的预生成策略;(5)在选择出的最优样本上针对查询所要求的聚合函数进行查询重写,返回近似结果;公式中所用的符号及参数的含义如下:attr:数据表中的某一属性,g:查询结果中的某一分组,p(g):样本出自于分组g的概率,Sg:分组g上分配的抽样空间大小,X:总的抽样空间大小,k:单个抽样块上存放的样本集个数,U:用户查询中所有分组条件的集合,u:用户查询中某一个分组条件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810625076.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于本体的专利技术主题聚类方法
- 下一篇:一种计算机页面数据填入控制方法