[发明专利]基于Spark的火电大数据挖掘方法在审

申请号：	201910203483.8	申请日：	2019-03-18
公开（公告）号：	CN109933620A	公开（公告）日：	2019-06-25
发明（设计）人：	贾立;宋鸣程	申请（专利权）人：	上海大学
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/215;G06Q10/06;G06Q50/06
代理公司：	北京汇信合知识产权代理有限公司 11335	代理人：	戴凤仪
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明是一种基于Spark的火电大数据挖掘方法，设计适用于火电多源异构大数据存储与计算的基于Hadoop的Spark计算平台，利用Hadoop集群对火电大数据进行分布式存储，结合Spark计算框架对火电大数据进行数据挖掘。根据机组实际运行特点，对火电大数据进行稳态工况判定提取稳态运行数据，然后使用基于外部约束的工况划分以及基于挖掘目标的数据压缩，使用基于Spark的K‑means算法对火电大数据进行离散化，使用基于Spark的FP‑growth算法对火电大数据进行关联规则分析，挖掘出各工况的强关联规则，得到符合优化目标的参数所达到过的最优值存入历史知识库，辅助运行人员或控制系统做出相关决策，依据目标属性的不同可以提高机组运行的经济性，稳定性和环保性，使机组保持优良运行工况。
搜索关键词：	大数据火电挖掘机组算法知识库关联规则分析分布式存储多源异构关联规则计算平台控制系统目标属性数据挖掘数据压缩稳态工况稳态运行优化目标运行工况运行特点环保性离散化判定存储外部决策
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于Spark的火电大数据挖掘方法，其特征在于，设计了适用于火电多源异构大数据存储与计算的基于Hadoop的Spark计算平台，利用Hadoop集群对火电大数据进行分布式存储，并结合Spark计算框架对火电大数据进行数据挖掘，从而找出机组各稳态工况下的最佳运行参数目标值，包括如下步骤：步骤1：首先对火电厂历史大数据进行参数数据的清洗，包括检查数据一致性，利用热卡填充法处理无效值和缺失值；步骤2：根据协调控制系统投入自动，且重要辅机正常运行的时间节点，利用机组负荷以及主蒸汽压力两个参数在一段时间内的方差与给定机组稳态运行阈值进行比较，将小于该阈值的数据加入机组稳态运行数据集，其他数据直接剔除；步骤3：负荷和煤质作为外部约束条件，采用基于Spark的K‑means算法对稳定工况数据进行工况划分。使用基于Spark的K‑means算法对历史大数据中的负荷和煤质系数进行聚类划分，其聚类结果形式为“煤质＝某值属于煤质优”、“负荷＝某值属于负荷某区间”，实现对负荷、煤质的区间划分，将不同的负荷区间以及煤质区间组合成若干的具有不同外部条件的工况区间，实现对稳态数据的工况划分，并采用基于Spark的K‑means算法对各参数分别进行聚类划分，实现数据离散化；步骤4：定义火电机组性能指标参数，明确挖掘目标，包括稳定性、经济性、环保性3类指标，通过线性组合确定属性相应的权重值，确定优化目标；步骤5：明确与优化目标有关的参数，对优化目标不相干的参数进行剔除，实现对数据空间的压缩；步骤6：对各工况数据进行基于Spark的FP‑growth挖掘算法，得到各工况下强关联规则，从而得到各工况下基于优化目标的最优运行参数，并存入历史知识库。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海大学，未经上海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910203483.8/，转载请声明来源钻瓜专利网。

上一篇：一种半监督分类预测方法
下一篇：一种宏观经济多源混频大数据建模方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Spark的火电大数据挖掘方法在审

专利文献下载