[发明专利]一种基于Spark大数据平台的铝电解过热度预测方法在审

专利信息
申请号: 201811304841.6 申请日: 2018-10-31
公开(公告)号: CN109285589A 公开(公告)日: 2019-01-29
发明(设计)人: 胡峰;郭英杰;于洪;史明辉;王津;康峻玮;李秋莹;何倩;候嘉欣;潘洪杭;赵英刚;朱正鑫 申请(专利权)人: 重庆邮电大学
主分类号: G16C20/10 分类号: G16C20/10;G06K9/62
代理公司: 重庆市恒信知识产权代理有限公司 50102 代理人: 刘小红;陈栋梁
地址: 400065 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 过热度 分类结果 测试集 大数据 铝电解 训练集 样本集 预测 大规模数据集 数据挖掘技术 读取 初始化操作 分布式数据 铝电解工业 测试数据 分类算法 计算公式 特征提取 样本数据 表创建 分类器 过采样 数据集 样本数 总样本 打标 样本 标签 合成 分类 平衡
【说明书】:

发明请求保护一种基于Spark大数据平台的铝电解过热度预测方法,涉及数据挖掘技术和铝电解工业。首先,读取大规模数据集,每一张表创建分布式数据集RDD,完成初始化操作。其次,对每个RDD,使用相同的方法进行特征提取,得到样本数据集YRDD。再次,使用过热度计算公式对每个样本进行打标。然后,进行过采样操作以达到样本数平衡。YRDD合成一个总样本数据集ZRDD作为样本集。最后,将样本集划分为训练集和测试集,将过热度作为标签,其他作为特征,使用分类算法对训练集进行训练得到分类器。对测试集进行分类,得到分类结果。用户输入一段时间的测试数据,得到未来一段时间的过热度预测值。本发明大幅度提高得到分类结果的时间。

技术领域

本发明属于信息技术、铝电解工业、数据挖掘等领域,提供了一种基于Spark大数据平台的铝电解过热度预测模型。

背景技术

随着计算机信息领域的飞速发展,大量的数据从生活的各个方面被收集起来,互联网上各种各样信息的规模也在成几何倍数的增大,从海量的数据中迅速分析从而提取隐藏在数据中的信息变得越来越重要。

在铝电解生产过程中,过热度是指电解质温度与初晶温度的差值,是一项很重要的指标。如果电解槽工作在适当的过热度状态下,那么可以提高电流效率,降低电解槽损耗,延长电解槽寿命。但是,由于铝电解在生产过程中会涉及到大量的生产参数以及复杂的环境变化,因此过热度测量难度较大且测量过程复杂。对除过热度外的参数进行分析来预测未来过热度显得意义重大。

Spark是一个基于内存的分布式计算系统,是由UC Berkeley AMPLab实验室于2009年开发的开源数据分析集群计算框架。拥有MapReduce的所有优点,与MapReduce不同的是.Spark将计算的中间结果数据持久地存储在内存中,通过减少磁盘I/O。使后续的数据运算效率更高。Spark的这种架构设计尤其适合于机器学习、交互式数据分析等应用.这些应用都需要重复地利用计算的中间数据。在Spark和Hadoop的性能基准测试对比中,运行基于内存的logistic regression,在迭代次数相同的情况下,Spark的性能超出HadoopMapReduce 100倍以上。两者之间在计算过程中也存在一些不同之处,比如MapReduce输出的中间结果需要读写HDFS,而Spark框架会把中间结果保存在内存中。这些不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。而弹性分布式数据集(RDD,ResilientDistributed Datasets)是Spark框架的核心数据结构,它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。Spark将数据集运行的中间结果保存在内存中能够极大地提高性能,资源开销也极低,非常适合多次迭代的机器学习算法。

Spark的核心概念是RDD(resilient distributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法。RDD的具体描述RDD(弹性数据集)是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作,可以将RDD理解为一个具有容错机制的特殊集合它提供了一种只读、只能有已存在的RDD变换而来的共享内存,然后将所有数据都加载到内存中,方便进行多次重用。RDD是分布式的,可以分布在多台机器上,进行计算,并且RDD是弹性的,计算过程中内存不够时它会和磁盘进行数据交换。现有技术存在的问题是:从海量的数据集进行过热度预测容易内存溢出、时间过长和无法运行宕机。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811304841.6/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top