[发明专利]基于元组级不确定性模型的多对多型PSJ聚集查询方法有效
申请号: | 201711208881.6 | 申请日: | 2017-11-27 |
公开(公告)号: | CN108121766B | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 陈岭;王俊凯 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 元组级 不确定性 模型 psj 聚集 查询 方法 | ||
本发明公开了一种基于元组级不确定性模型的PSJ聚集查询方法,包括:(1)利用元组级不确定性模型,将每一条多对多型PSJ连接建模为一条不确定性元组,形成PSJ全集;(2)基于步骤(1)的建模结果,为满足COUNT查询谓词条件的元组增加标志属性,为满足SUM查询谓词条件的元组增加求和属性;(3)在步骤(2)的基础上,采用动态规划思想,计算所述PSJ子集的聚集值概率分布,并基于所述PSJ子集的聚集值概率分布的结果,计算得PSJ全集的聚集值概率分布。该方法解决了在多对多型PSJ上难以执行COUNT查询和SUM查询的问题,在数据库、联机分析处理以及数据仓库中具有广阔的应用前景。
技术领域
本发明涉及概率型相似性连接(Probabilistic Similarity Join,PSJ)的聚集查询领域,具体涉及基于元组级不确定性模型的多对多型PSJ聚集查询方法。
背景技术
连接聚集查询在数据库、联机分析处理以及数据仓库中应用广泛,此类查询通常先采用连接操作将多张关系表合并起来,然后再执行聚集运算。然而,由于信息时代数据爆炸式增长,数据本身的不确定性以及数据采集和集成过程中引入的不确定性,导致大量数据具有不完整性和模糊性。不确定性数据的存在常常使得多表之间无法连接,进而导致基于连接操作的聚集查询失败。
PSJ查询基于相似性度量函数,能够将相似的元组连接起来,有效解决了不确定性数据的连接问题。按照映射约束的不同,PSJ可分为三类:一对一型PSJ、一对多型PSJ和多对多型PSJ。然而,PSJ查询的原始结果通常为一组带概率的连接,这组连接并不满足映射约束。从这组PSJ中选取出部分连接,使其满足映射约束,则该部分连接同时出现的状态称为一个可能世界,该可能世界的概率为该部分连接同时出现的联合概率。在PSJ上执行聚集查询,实质上是对所有可能世界求聚集值。但是,PSJ的可能世界数量众多,基于PSJ的聚集查询面临挑战。
在PSJ上做聚集查询的方法较少。部分方法通过限制连接条数或者划定概率阈值来减少可能世界数量,但是这些方法不但丢失了大量信息,而且不考虑映射约束。
发明内容
本发明的目的是提供一种基于元组级不确定性模型的多对多型PSJ聚集查询方法,该方法能够对多对多型PSJ建模,并基于模型有效地计算多对多型PSJ的COUNT值和SUM值概率分布,进而缩短计算时间,提高查询效率。
为实现上述目的,本发明提供的技术方案为:
一种基于元组级不确定性模型的多对多型PSJ聚集查询方法,包括以下步骤:
(1)利用元组级不确定性模型,将每一条多对多型PSJ连接建模为一条不确定性元组,形成PSJ全集,所述PSJ全集中的一条不确定性元组对应一个PSJ子集;
(2)基于步骤(1)的建模结果,为满足COUNT查询谓词条件的元组增加标志属性,为满足SUM查询谓词条件的元组增加求和属性;
(3)在步骤(2)的基础上,采用动态规划思想,计算所述PSJ子集的聚集值概率分布,并基于所述PSJ子集的聚集值概率分布的结果,计算PSJ全集的聚集值概率分布。
作为优选,所述步骤(2)包括:
查询类型一:若聚集查询为COUNT查询,则为不确定性元组增加一个属性F,表示所述不确定性元组是否满足谓词条件,若所述不确定性元组满足谓词条件,那么l.F=1,否则l.F=0;
查询类型二:若聚集查询为SUM查询,则为不确定性元组增加一个属性F,表示所述不确定性元组求和属性值的大小,若所述不确定性元组满足谓词条件,那么l.F等于所述不确定性元组的原始PSJ的求和属性值,否则l.F=0。
作为优选,所述计算所述PSJ子集的聚集值概率分布包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711208881.6/2.html,转载请声明来源钻瓜专利网。