[发明专利]一种基于分布式系统的解析超大文本文件处理方法有效
申请号: | 202011603232.8 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112698988B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 李立强;吴福全;王淋淋 | 申请(专利权)人: | 安徽迪科数金科技有限公司 |
主分类号: | G06F11/14 | 分类号: | G06F11/14;G06F16/172;G06F16/182 |
代理公司: | 合肥正则元起专利代理事务所(普通合伙) 34160 | 代理人: | 王俊晓 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 系统 解析 超大 文本文件 处理 方法 | ||
1.一种基于分布式系统的解析超大文本文件处理方法,其特征在于,具体的步骤包括:
S1:获取样本数据和解析分布数据,解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;
S2:对解析分布数据进行分布式分析,得到分布分析数据;
S3:根据分布分析数据对样本数据进行划分和分配,得到样本分配集;
S4:对样本分配集进行分布式处理,得到样本处理集;
S5:将样本处理集进行组合,得到样本解析集;
对解析分布数据进行分布式分析,得到分布分析数据,包括:
S21:获取解析分布数据中若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;
S22:设定不同的处理器均对应一个不同的处理预设值,将类型数据中的处理器类型与所有的处理器进行匹配获取对应的处理预设值并标记为CY,获取处理速率数据中的平均处理速率并标记为PC;
S23:获取处理内存数据中的已使用处理内存和未使用处理内存,将已使用处理内存标记为YCN1,将未处理内存标记为WCN1,获取存储内存数据中的已存储内存和未使用存储内存,并将已存储内存标记为YCN2,将未存储内存标记为WCN2;
S24:获取状态数据中若干个主机上一次处理数据的持续时长和间隔时长,设定不同的时长对应不同的时长预设值,将持续时长与所有的时长进行匹配获取对应的时长预设值并标记为第一时预值,将间隔时长与所有的时长进行匹配获取对应的时长预设值并标记为第二时预值;
S25:利用公式获取若干个主机的实运值,该公式为:
其中,Qsy表示为实运值,μ表示为预设的实运修正因子,g1、g2、g3、g4表示为预设的不同比例系数,YSY表示为第一时预值,ESY表示为第二时预值;
S26:将若干个实运值进行降序排列得到实运排序集;
S27:将标记的处理预设值、平均处理速率、已使用处理内存、未处理内存、已存储内存、未存储内存、第一时预值和第二时预值与实运排序集组合,得到分布分析数据;
根据分布分析数据对样本数据进行划分和分配,得到样本分配集,包括:
S31:获取分布分析数据中的已使用处理内存、未处理内存、已存储内存、未存储内存;
S32:利用公式获取若干个主机的划分值,该公式为:
其中,Qhf表示为划分值,β表示为预设的划分修正因子,a1、a2表示为预设的不同比例系数;
S33:将若干个划分值进行降序排列,得到划分排序集,将划分排序集与预设的划分阈值进行匹配,若划分值不小于划分阈值,则判定该划分值有效并将其对应的主机标记为处理主机;若划分值小于划分阈值,则判定该划分值无效并将其对应的主机标记为待机主机,统计处理主机的总数量并标记为划分数量;
S34:获取若干个处理主机的未处理内存的累加值,并计算若干个处理主机的未处理内存与累加值的占比,得到占比系数,将占比系数进行降序排列并标号;
S35:获取样本数据的内存值,将内存值根据占比系数进行划分并降序排列标号,得到样本划分数据;
S36:将样本划分数据根据占比系数与若干个处理主机关联并组合,得到样本分配集;
对样本分配集进行分布式处理,得到样本处理集,包括:
S41:获取处理主机的分布坐标,根据分布坐标将样本划分数据分发至若干个处理主机,若干个处理主机接收样本划分数据并进行解析,得到样本解析数据;
S42:获取处理主机解析的持续时长和样本解析数据的占用内存,根据持续时长将该处理主机的工作时长进行更新,将样本数据存储至处理主机中进行备份并获取备份路径;
S43:根据样本解析数据的占用内存对处理主机的已存储内存和未存储内存分别进行加减更新,得到更新已存储内存 和更新未存储内存;
S44:将若干个备份路径根据处理主机的排序标号和分布坐标进行排列组合,得到路径分配集;
S45:将路径分配集和若干个降序排列的样本解析数据组合,得到样本处理集。
2.根据权利要求1所述的一种基于分布式系统的解析超大文本文件处理方法,其特征在于,将样本处理集进行组合,得到样本解析集,包括:
将路径分配集根据降序排列的标号和分布坐标与样本解析数据进行关联,并将若干个样本解析数据根据降序排列的标号进行组合,得到样本解析集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽迪科数金科技有限公司,未经安徽迪科数金科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011603232.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种石墨烯复合膜及其制备方法与应用
- 下一篇:一种芯片框架引脚的成型治具