[发明专利]基于频繁项集的数据关联性分析和预读取方法有效
申请号: | 201510275426.2 | 申请日: | 2015-05-26 |
公开(公告)号: | CN104881467B | 公开(公告)日: | 2018-08-31 |
发明(设计)人: | 唐飞龙;张健桐;栾志坤;张杨;王玉凤;房新宇;唐灿;过敏意 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于频繁项集的数据关联性分析和预读取方法,包括步骤如下:云平台每处理一个作业,将该次作业中每一个子任务处理的数据块作为一条记录存入资料库中;每隔一定时间利用集群的空闲资源对资料库中的频繁项集进行挖掘,找出数据块之间的关联性;在之后作业的执行过程中,根据预测的置信度,结合数据与任务所在节点的位置关系,提前读取所需要的数据块,从而达到提升整个集群吞吐率的目的。 | ||
搜索关键词: | 读取 频繁项集 数据块 数据关联性 集群 资料库 子任务处理 空闲资源 时间利用 关联性 吞吐率 云平台 置信度 分析 挖掘 预测 记录 | ||
【主权项】:
1.一种基于频繁项集的数据关联性分析和预读取方法,其特征在于,包括如下步骤:步骤1:对于用户提交到云平台中的第i个作业Jobi,云平台根据作业Jobi中的每个子任务Taskij涉及到的数据块生成一条记录Tij,并将记录Tij存入资料库D中;其中,Taskij表示作业Jobi的第j个子任务;i为正整数,j为正整数;所述记录Tij,是指作业Jobi中的子任务Taskij涉及到的数据块的集合;步骤2:每隔时间间隔Interval,对资料库D中的数据进行挖掘,找到频繁项集中所有的关联规则L,关联规则L中大小为m的子规则集合记为Lm,关联子规则集合Lm中的子规则Lmk的支持度定义为Support(Lmk);其中,Lmk表示关联子规则集合Lm中的第k条记录;Support(Lmk)=|Lmk|/|D|,其中,|Lmk|表示关联规则L中的子规则Lmk出现的次数,|D|表示资料库D中关联规则L的数量;时间间隔Interval根据资料库D的变化速率进行调整,Interval∝|D|/|ΔD|,其中,|ΔD|表示单位时间内关联规则L变化的数量;步骤3、在作业Jobi的执行过程中,每个子任务Taskij根据已经处理过的数据块集合A,依照关联规则L,预测在接下来的计算中可能用到的数据块集合B,并提前加载进内存;按照如下方式决定预测是否可信:预测置信度的计算方式为Confidence(A→B)=Support(A∪B)/Support(B)其中,Confidence(A→B)表示处理数据块集合A后,在接下来的计算中会使用到数据块集合B的置信度,Support(B)表示关联规则L中出现数据块集合B的次数,Support(A∪B)表示关联规则L中同时出现数据块集合A和数据块集合B的次数;设置三个置信度阈值CsameNode、CsameRack、Cglobal,分别表示数据块集合B所在节点NodeB与子任务Taskij所在节点Nodetask两者之间的位置关系为两者在同一节点、两者不在同一节点但在同一机架、两者不在同一机架上时应该选取的置信度阈值,并有CsameNode<CsameRack<Cglobal;根据节点NodeB与节点Nodetask两者之间的位置关系在CsameNode、CsameRack以及Cglobal中选取对应的置信度阈值作为阈值C,当且仅当Confidence(A→B)≥C时,认为该预测有效,并进行数据的预读取;所述对资料库D中的数据进行挖掘,采用的如下频繁项集挖掘算法:步骤A0:设置阈值θ,其中,0<θ<1;设置缓冲区Buffer与关联规则L,并将缓冲区Buffer与关联规则L的初始状态均设置为空集;其中Buffer为一个集合,用于存储最近使用的记录;对资料库D中的每一条记录Tij执行如下步骤:步骤A1:将一记录放入缓冲区Buffer中;步骤A2:使用该记录更新关联规则L;将在关联规则L中出现频率高于阈值θ的记录认定为频繁项集;如果关联规则L中涉及到的数据块个数为2的频繁项集的数量大于
则进入步骤3,否则返回步骤1对下一条记录进行处理;步骤A3:令m=2,对关联规则L进行约简;步骤A4:设置m初始值为2,反复执行如下步骤A4.1至A4.3,直到Lm为空集时进入步骤A5:步骤A4.1:将m的值增加1;步骤A4.2:使用缓冲区Buffer中的每一条记录更新关联规则L;步骤A4.3:对关联规则L进行约简;步骤A5:清空缓冲区。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510275426.2/,转载请声明来源钻瓜专利网。