[发明专利]一种基于频繁模式树二维特征的负载均衡方法在审
申请号: | 201910264138.5 | 申请日: | 2019-04-03 |
公开(公告)号: | CN109992610A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 赵义健;黄芳;杜春修;阿里阿米尔;张予琛 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/242;G06F16/27;G06F9/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 频繁模式 二维特征 计算量 预估 负载均衡 估算 负载均衡效果 大规模并行 传统算法 计算节点 计算平台 计算效率 结果使用 可扩展性 深度特征 数据分配 综合考虑 挖掘 并行性 有效地 并行 分组 | ||
本发明提供了基于频繁模式树二维特征的负载均衡方法,方法针对传统算法对计算量估算考虑不全的问题,综合考虑了影响频繁模式树计算量的宽度和深度二维特征,方法首先根据频繁模式树宽度和深度特征对频繁一项集中的项进行计算量预估,然后根据预估结果使用基于贪心策略的方法对频繁一项估算集进行分组。方法主要解决了在并行频繁模式挖掘中数据分配不均而导致的计算效率降低的问题,实现了在大规模并行计算平台下快速高效地进行频繁模式挖掘。实验结果表明,方法有效地提高了计算节点间的负载均衡效果,且具有良好的并行性和可扩展性。
技术领域
本发明属于计算机科学与技术领域,特别涉及一种基于频繁模式树二维特征的负载均衡方法。
背景技术
频繁模式用于发现数据之间的关联性和规律性在商业和社交等领域都具有重要作用。在数据量增大后,传统串行频繁模式挖掘方法Apriori、FP-Growth无法满足计算要求,利用计算集群运行高效的并行算法可以充分发挥整个集群的计算资源来快速的处理大批量数据。在集群计算中,由于集群的运算时间是由集群中最后一个结束计算的计算节点所决定,所以为了避免在分布式集群中出现数据倾斜现象,首先应该考虑的问题就是集群中每个计算节点的负载均衡问题。在进行并行频繁模式挖掘时,分配到每个计算节点上的计算量是由所在节点数据建立的局部频繁模式树所决定的,因此,在进行数据分配到节点之前,最好的方法是对可能计算节点内可能存在的计算量就行预估,通过这样的方法,就可以在一定程度上避免数据倾斜现象的出现。相较于传统的BPFP算法在进行计算量估算时只考虑了频繁模式树深度的一维特征,虽然在一定程度上克服了PFP算法可能存在的数据倾斜问题,提高了并行的执行效率,但在项集分组中并没有综合考虑频繁模式树规模问题。此外,由于部分基于Hadoop 的并行频繁模式挖掘方法受MapReduce计算框架对迭代算法的局限性影响,在资源和时间性能上表现并不优异。
因此,有必要在分组之前针对计算量的预估进行更详细的设计,同时将方法的运行平台转移到更加适合做迭代计算的分布式平台之上,设计一种Spark平台下的在并行频繁模式挖掘中基于频繁模式树二维特征的负载均衡方法。
发明内容
本发明所解决的问题是,针对现有技术的不足,提供一种Spark平台下的在并行频繁模式挖掘中基于频繁模式树二维特征的负载均衡方法,方法能在进行分组前,对所有的计算量进行综合预估,然后使用基于贪心策略的方法进行分组,可以使得整个Spark计算集群最大程度的达到负载均衡,以优化集群的并行程度实现在快速高效的在大批量数据中获取频繁模式。
本发明所提供的技术方案为:
一种基于频繁模式树二维特征的负载均衡方法,包括两部分,第一部分为基于频繁模式树二维特征(深度,宽度)对一项集中每一项在分配到计算节点时可能存在的计算量进行预估,第二部分是对预估的结果使用基于贪心策略的分组方法进行负载均衡分组;
第一部分具体步骤为:
步骤1:项的并行计数统计:输入数据集DB后,进行并行的一项集计数,计数完成后获取所有项的一项集计数,记为<key=an,value=count>,其中an为DB中出现的项,count为项an出现的次数。
步骤2:获取频繁一项集F-list:设置项的最小支持度为δ(0<δ<1),遍历计算每一项是否满足an.count>=DB.count*δ,an.count为项an的出现次数,DB.count为数据集DB中事务的数目;若满足则将项an加入到频繁一项集f-list中,将所有的项遍历完成得到完整的频繁一项集f-list,然后将f-list中的项根据出现次数从大到小进行排序,形成排序后的频繁一项集F- list。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910264138.5/2.html,转载请声明来源钻瓜专利网。