[发明专利]一种计算资源受限下大数据处理的细粒度缓存替换算法在审
申请号: | 202211024976.3 | 申请日: | 2022-08-25 |
公开(公告)号: | CN115470158A | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 张斌;周昊程;杨定坤;赵南;董平;刘春艳;封晶;孙澄宇 | 申请(专利权)人: | 江苏电力信息技术有限公司 |
主分类号: | G06F12/127 | 分类号: | G06F12/127 |
代理公司: | 南京汇盛专利商标事务所(普通合伙) 32238 | 代理人: | 陈扬 |
地址: | 210024 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算 资源 受限 数据处理 细粒度 缓存 替换 算法 | ||
1.一种计算资源受限下大数据处理的细粒度缓存替换算法,其特征在于:首先为多任务并行式大数据处理应用中的并行执行模式建立数学形式模型,而后,在计算资源受限场景下考虑计算资源对缓存过程的影响,提出数据块级别的细粒度缓存替换算法。包括如下步骤:
(1)分析计算资源对缓存过程的影响:在面向大数据处理系统的缓存替换问题中,得到计算资源与缓存粒度的关系,具体总结为:当计算资源充足时,仅缓存抽象数据集的部分数据块无法加速数据处理过程,此时将缓存对象设为抽象数据集,考虑粗粒度缓存替换算法;当计算资源受限时,仅缓存抽象数据集的部分数据块即可加快数据处理应用的执行,此时将缓存对象设为内存数据块,考虑细粒度缓存替换算法;
(2)为细粒度缓存替换问题建立数学模型:首先以任务调度的方式在缓存替换问题中对计算资源进行建模,而后通过大数据处理应用抽象而成的有向无环图G=(V,E)蕴含的数据处理模式,分别对典型大数据处理中应用、作业、阶段、任务的执行时延和待缓存数据块进行建模;在此基础上,细粒度缓存替换问题被定义为:在每个数据块bt计算完毕的时刻t,决策该时刻的待缓存数据块集合从而最小化数据块bt所在的数据处理作业及后续所有作业的整体执行时延;
(3)基于大数据处理特征对缓存替换问题进行转换:由于面向计算资源受限场景的细粒度缓存替换问题为NP难问题,基于大数据处理算子的计算特征与面向数据块的贪心缓存策略,将已建模的缓存替换问题转换为经典NP完全问题的变种;
(4)基于动态规划设计细粒度缓存替换算法:基于算子的计算特征与面向数据块的贪心缓存策略将问题转化为有界背包问题的变种;该算法包含两大模块,分别为基于数据处理特征的预处理模块和基于动态规划思想的细粒度缓存替换模块;其中,前者包含基于算子计算特征的问题转换步骤和基于数据块贪心缓存策略的问题转换步骤;
(5)分析细粒度缓存替换算法的计算复杂度:基于动态规划思想的数据块级缓存替换算法的计算复杂度由其包含的三大模块决定,与大数据处理应用中出现的数据块总数量|B|、缓存空间的内存上限L相关,细粒度缓存替换算法的计算复杂度为O(|B|2×L)。
2.根据权利要求1所述的计算资源受限下大数据处理的细粒度缓存替换算法,其特征在于:步骤(1)中,计算资源对缓存过程的影响包括如下特征:
(11)在计算资源充足时,考虑算子级缓存替换算法:在计算资源充足的场景下,同一数据处理阶段中多个数据处理任务的起始执行时刻和结束时刻均相同;此时,仅缓存抽象数据集的部分数据块只能减少阶段中部分任务的执行时间,无法降低阶段整体执行时延,因此无法加速数据处理应用的执行;在该场景下,在缓存数据时,要么不缓存某个抽象数据集,要么缓存该抽象数据集的所有数据块,由于抽象数据集对应着数据处理算子的计算结果,因此在计算资源充足时考虑算子级别的缓存替换算法;
(12)在计算资源有限时,应考虑数据块级别的缓存替换算法:在计算资源受限场景下,系统会根据任务的计算资源需求对任务进行调度;同一阶段中多个任务的起始执行时刻存在差异,导致其结束时刻有所不同;此时,仅缓存抽象数据集的部分数据块也能加快数据处理应用的执行;在该场景下,由于任务调度的影响,应考虑数据块级缓存替换算法,因为该算法相较于算子级缓存替换算法粒度更细,存在更大优化空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏电力信息技术有限公司,未经江苏电力信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211024976.3/1.html,转载请声明来源钻瓜专利网。