[发明专利]一种大规模分布式函数依赖发现方法在审
申请号: | 201810367758.7 | 申请日: | 2018-04-23 |
公开(公告)号: | CN108595624A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 顾荣;黄宜华;朱光辉;王千;袁春风 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种大规模分布式函数依赖发现方法,包括以下步骤:第一步,并行地获取数据集的统计信息、对属性进行排序和对数据进行分布式编码;第二步,依次选取属性,将在该属性上取值相同的数据发送到同一个节点上;第三步,在每个节点上进行候选函数依赖发现。该过程可以分为以下两步:第一步,并行地进行采样,利用采样结果对候选集进行剪枝和生成;第二步,并行地对候选集进行验证,利用验证结果对候选集进行剪枝和生成。每轮采样和验证结束后均需根据其效率来决定是否进行采样和验证的切换。第四步,生成函数依赖结果。本发明可高效地实现分布式函数依赖发现,解决现有函数依赖求解方法计算量大、内存占用多、无法处理大规模数据集等问题。 | ||
搜索关键词: | 函数依赖 候选集 采样 并行 验证 剪枝 发现 大规模数据集 分布式编码 统计信息 采样结果 候选函数 获取数据 内存占用 生成函数 验证结果 计算量 数据发 求解 排序 | ||
【主权项】:
1.一种大规模分布式函数依赖发现方法,包括以下步骤:(1)并行地获取输入数据的统计信息,根据统计信息对属性进行排序,根据统计信息和属性排序结果对数据进行分布式编码;(2)根据步骤(1)中的结果,分多轮执行步骤(3)到步骤(4);(3)根据步骤(1)的属性排序结果,每次选取一个属性并对步骤(1)中分布式编码的数据进行重分布;(4)根据步骤(3)的结果,分多轮执行步骤(5)到步骤(6),每一轮对左部中包含被选属性的所有候选函数依赖进行发现,直到左部包含该属性的所有候选函数依赖被排除或者被验证;(5)对步骤(3)中重分布的数据进行并行地采样并根据采样结果对候选集进行剪枝和生成,采样效率低于验证效率时转向步骤(6);(6)对步骤(3)中重分布的数据进行并行地验证并根据验证结果对候选集进行剪枝和生成,验证效率低于采样效率时转向步骤(4);(7)删除步骤(4)的结果中非最小的函数依赖并根据步骤(1)中的属性排序结果对函数依赖的属性顺序进行调整,得到所有最小的非平凡的函数依赖。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810367758.7/,转载请声明来源钻瓜专利网。