[发明专利]基于Spark的火电大数据挖掘方法在审
申请号: | 201910203483.8 | 申请日: | 2019-03-18 |
公开(公告)号: | CN109933620A | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 贾立;宋鸣程 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/215;G06Q10/06;G06Q50/06 |
代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 戴凤仪 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 火电 挖掘 机组 算法 知识库 关联规则分析 分布式存储 多源异构 关联规则 计算平台 控制系统 目标属性 数据挖掘 数据压缩 稳态工况 稳态运行 优化目标 运行工况 运行特点 环保性 离散化 判定 存储 外部 决策 | ||
本发明是一种基于Spark的火电大数据挖掘方法,设计适用于火电多源异构大数据存储与计算的基于Hadoop的Spark计算平台,利用Hadoop集群对火电大数据进行分布式存储,结合Spark计算框架对火电大数据进行数据挖掘。根据机组实际运行特点,对火电大数据进行稳态工况判定提取稳态运行数据,然后使用基于外部约束的工况划分以及基于挖掘目标的数据压缩,使用基于Spark的K‑means算法对火电大数据进行离散化,使用基于Spark的FP‑growth算法对火电大数据进行关联规则分析,挖掘出各工况的强关联规则,得到符合优化目标的参数所达到过的最优值存入历史知识库,辅助运行人员或控制系统做出相关决策,依据目标属性的不同可以提高机组运行的经济性,稳定性和环保性,使机组保持优良运行工况。
技术领域
本发明属于火电大数据挖掘技术领域,是一种基于Spark的火电大数据挖掘方法,该方法适用于火电,风电等相关领域。
背景技术
火电机组的数据基础良好,上世纪就可由计算机集散控制系统采集用于火电机组控制与设备状态监控的传感器数据。随着信息化的发展,火电机组的数据能够从机组DCS、PLC、SIS、SCADA、DEH以及其他实时系统收集。大量现场数据可以被分散控制系统(DCS)和数据采集系统(DAS)实时地采集并存储到数据库中,其中300MW机组DCS的输入输出数据有4000-5000点,600MW的机组有12000点左右,不但运行参数的数据维度和采集频率非常高,而且其相关子系统和特定部件还有独立于机组DCS的数据采集系统,因此火电厂所存储的生产运行数据呈几何级数增长。这些运行数据都具有大容量、多样性、处理速度快和价值高等大数据的明显特征,根据关于大数据的定义,电厂所采集的运行数据可以被认为是大数据。
这些海量的电厂运行数据中隐含着许多对运行优化有应用价值的信息,从其中提取改善火电厂运行的信息或模式,并以此确定最佳的火电厂运行参数调整范围,为运行人员提供机组在不同工况下的最优运行方式与参数控制。数据挖掘能从电厂海量历史数据中挖掘出机组在不同工况下实际运行达到过的最优值。这些最优值相较于机组理论上的最优值,在机组实际运行中更容易达到,更具有实际意义。
很多学者都尝试使用关联规则来寻找机组运行参数之间的联系,从而挖掘出参数最优值。李建强等提出了语言值关联规则挖掘算法将模糊C-均值(FCM)算法应用于数据离散化;牛成林在模糊量化关联规则的基础上提出了改进的增量式模糊数值型关联规则挖掘算法;可是这些数据挖掘算法在处理火电大数据时,由于算法构建的频繁模式树过大,存在火电数据存储与计算的瓶颈。由于传统数据挖掘难以满足处理电厂大数据的性能需求,使用Hadoop、Spark等大数据技术对火电大数据进行大数据挖掘已经成为研究热点。
目前火电数据挖掘技术已经在许多方面取得一定进展,但依然存在以下几方面问题:
1.燃煤电站不仅在时间上不断存储积累火电机组的运行数据,还在空间上扩展采集设备的数据,从而获得时间与空间两个维度上不同尺度的大容量数据,火电机组数据存储于多个数据库,难以进行有效地利用和数据挖掘。这就造成了火电大数据的多源问题;
2.火电厂不同设备的参数以不同类型、不同编码与命名规则的文件形式存储,彼此之间难以互相辨识及共享参数信息,并且各个机组子系统存在不同类型的文本、图像等信息,致使其不能互为校验和参考,无法达到提高整个火电机组运行参数准确性与一致性的目的,由此造成了火电大数据的异构问题;
3.火电厂信息化程度高,数据采样点多,采样频率高。燃烧系统、汽水系统、电气系统都采集并储存海量数据,火电大数据规模大。火电机组运行过程通常由大量相互关联的变量来体现,变量之间往往存在复杂的相关性,火电大数据纬度高。从而造成数据挖掘算法存在数据存储瓶颈以及计算瓶颈。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910203483.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种半监督分类预测方法
- 下一篇:一种宏观经济多源混频大数据建模方法