[发明专利]一种基于Spark大数据平台的铝电解过热度预测方法在审
申请号: | 201811304841.6 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109285589A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 胡峰;郭英杰;于洪;史明辉;王津;康峻玮;李秋莹;何倩;候嘉欣;潘洪杭;赵英刚;朱正鑫 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G16C20/10 | 分类号: | G16C20/10;G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明请求保护一种基于Spark大数据平台的铝电解过热度预测方法,涉及数据挖掘技术和铝电解工业。首先,读取大规模数据集,每一张表创建分布式数据集RDD,完成初始化操作。其次,对每个RDD,使用相同的方法进行特征提取,得到样本数据集YRDD。再次,使用过热度计算公式对每个样本进行打标。然后,进行过采样操作以达到样本数平衡。YRDD合成一个总样本数据集ZRDD作为样本集。最后,将样本集划分为训练集和测试集,将过热度作为标签,其他作为特征,使用分类算法对训练集进行训练得到分类器。对测试集进行分类,得到分类结果。用户输入一段时间的测试数据,得到未来一段时间的过热度预测值。本发明大幅度提高得到分类结果的时间。 | ||
搜索关键词: | 过热度 分类结果 测试集 大数据 铝电解 训练集 样本集 预测 大规模数据集 数据挖掘技术 读取 初始化操作 分布式数据 铝电解工业 测试数据 分类算法 计算公式 特征提取 样本数据 表创建 分类器 过采样 数据集 样本数 总样本 打标 样本 标签 合成 分类 平衡 | ||
【主权项】:
1.一种基于Spark大数据平台的铝电解过热度预测方法,其特征在于,包括步骤:数据加载阶段:输入需要构建样本的数据集,数据集包括设定电压、槽电压、槽电流、槽电阻、过滤电阻、平滑电阻、设定最高电压、设定最低电压、效应等待间隔、针振、摆动、电阻变化斜率、电阻总变化斜率、基准下料间隔及实际下料间隔参数,将其转换成Spark平台的分布式数据集RDD,并且完成初始化操作;样本集构建阶段:对每个分布式数据集RDD,使用处理时间维度样本时常用的滑窗法进行特征提取,得到样本数据集YRDD,使用过热度计算公式对每个样本进行打标;对于每个YRDD,如果正反例样本数量不平衡,则对YRDD进行过采样操作使样本数平衡;将过采样操作后的YRDD合成一个总样本数据集ZRDD作为样本集;模型训练阶段:将样本集划分为训练集和测试集,将过热度作为标签,其他作为特征,使用Xgboost分类算法对训练集进行训练得到分类器;过热度预测阶段:使用得到的分类器对测试集进行分类,得到分类结果并保存模型;用户读取存放在关系型数据库或数据仓库中的原始数据,去除掉无关属性,保留与模型相关的测量值和人为设定值,作为输入,调用得到模型的预测标签,完成过热度预测。可修改人为设定值进行重复预测直至满足用户需要。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811304841.6/,转载请声明来源钻瓜专利网。