[发明专利]基于Spark的火电大数据挖掘方法在审
申请号: | 201910203483.8 | 申请日: | 2019-03-18 |
公开(公告)号: | CN109933620A | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 贾立;宋鸣程 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/215;G06Q10/06;G06Q50/06 |
代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 戴凤仪 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种基于Spark的火电大数据挖掘方法,设计适用于火电多源异构大数据存储与计算的基于Hadoop的Spark计算平台,利用Hadoop集群对火电大数据进行分布式存储,结合Spark计算框架对火电大数据进行数据挖掘。根据机组实际运行特点,对火电大数据进行稳态工况判定提取稳态运行数据,然后使用基于外部约束的工况划分以及基于挖掘目标的数据压缩,使用基于Spark的K‑means算法对火电大数据进行离散化,使用基于Spark的FP‑growth算法对火电大数据进行关联规则分析,挖掘出各工况的强关联规则,得到符合优化目标的参数所达到过的最优值存入历史知识库,辅助运行人员或控制系统做出相关决策,依据目标属性的不同可以提高机组运行的经济性,稳定性和环保性,使机组保持优良运行工况。 | ||
搜索关键词: | 大数据 火电 挖掘 机组 算法 知识库 关联规则分析 分布式存储 多源异构 关联规则 计算平台 控制系统 目标属性 数据挖掘 数据压缩 稳态工况 稳态运行 优化目标 运行工况 运行特点 环保性 离散化 判定 存储 外部 决策 | ||
【主权项】:
1.一种基于Spark的火电大数据挖掘方法,其特征在于,设计了适用于火电多源异构大数据存储与计算的基于Hadoop的Spark计算平台,利用Hadoop集群对火电大数据进行分布式存储,并结合Spark计算框架对火电大数据进行数据挖掘,从而找出机组各稳态工况下的最佳运行参数目标值,包括如下步骤:步骤1:首先对火电厂历史大数据进行参数数据的清洗,包括检查数据一致性,利用热卡填充法处理无效值和缺失值;步骤2:根据协调控制系统投入自动,且重要辅机正常运行的时间节点,利用机组负荷以及主蒸汽压力两个参数在一段时间内的方差与给定机组稳态运行阈值进行比较,将小于该阈值的数据加入机组稳态运行数据集,其他数据直接剔除;步骤3:负荷和煤质作为外部约束条件,采用基于Spark的K‑means算法对稳定工况数据进行工况划分。使用基于Spark的K‑means算法对历史大数据中的负荷和煤质系数进行聚类划分,其聚类结果形式为“煤质=某值属于煤质优”、“负荷=某值属于负荷某区间”,实现对负荷、煤质的区间划分,将不同的负荷区间以及煤质区间组合成若干的具有不同外部条件的工况区间,实现对稳态数据的工况划分,并采用基于Spark的K‑means算法对各参数分别进行聚类划分,实现数据离散化;步骤4:定义火电机组性能指标参数,明确挖掘目标,包括稳定性、经济性、环保性3类指标,通过线性组合确定属性相应的权重值,确定优化目标;步骤5:明确与优化目标有关的参数,对优化目标不相干的参数进行剔除,实现对数据空间的压缩;步骤6:对各工况数据进行基于Spark的FP‑growth挖掘算法,得到各工况下强关联规则,从而得到各工况下基于优化目标的最优运行参数,并存入历史知识库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910203483.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种半监督分类预测方法
- 下一篇:一种宏观经济多源混频大数据建模方法