[发明专利]一种分布式环境下基于度量空间的top-k支配查询方法有效
申请号: | 201610393610.1 | 申请日: | 2016-06-03 |
公开(公告)号: | CN106055674B | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 何洁月;罗浩 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 唐红 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种分布式环境下基于度量空间的top‑k支配查询方法,依次包括以下步骤:步骤1:给定查询输入集合Q以及度量空间中的距离公式d(),距离公式用来衡量整个数据对象与查询对象Q之间的距离;步骤2:根据步骤1提出基于集合ANN和k‑skyband并行算法。通过在分布式环境下充分利用各个节点之间的并行计算的特点,通过剪枝、排序极大的改善了在大数据集环境下基于度量空间的top‑k支配查询性能,加快查询速度,为用户的决策提供服务。 | ||
搜索关键词: | 一种 分布式 环境 基于 度量 空间 top 支配 查询 方法 | ||
【主权项】:
1.一种分布式环境下基于度量空间的top‑k支配查询方法,其特征在于:依次包括以下顺序执行的步骤:(1)给定查询输入数据对象集合Q以及度量空间中的距离公式d(),距离公式d()用来衡量整个数据对象O与查询输入数据对象集合Q之间的距离;(2)根据步骤(1)提出基于集合ANN和k‑skyband并行算法,该并行算法的具体内容为:(21)利用ANN(Q,k)剪枝:根据距离度量函数d()和查询输入Q计算所有数据对象与查询输入对象之间的距离Deal_Data_RDD并将其保存在各个分区中,然后每个分区单独并行求解各自分区的中ANN(Q,k),最后将每个分区的ANN(Q,k)结果通过reduce接口进行筛选得到全局的ANN(Q,k);将获取的全局ANN(Q,k)广播到各个节点上,利用ANN(Q,k)去过滤原始的数据集,最后得到候选集KANN(Q,k)_RDD,KANN(Q,k)_RDD中一定包含最后的top‑k支配结果集D;(22)利用k‑skyband剪枝:利用k‑skyband思想,找到KANN(Q,k)_RDD中的k‑skyband,然后进一步剪枝得到最终的候选集GlobalCandidate(k‑skyband);(23)获取top‑k支配结果集:计算GlobalCandidate(k‑skyband)中所有对象的支配分数,然后找出top‑k个支配分数最高的,返回作为top‑k支配结果;其中,KNN(q,k)是指数据对象q的k‑NN,表示距离对象q最近的k的对象;ANN(Q,k)是指查询集合Q的k‑NN,表示距离Q最近的k个对象。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610393610.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种深海养殖系统
- 下一篇:一种大理白族窖藏玫瑰酱及其制备方法