[发明专利]一种基于朴素贝叶斯的大段不等长缺失数据填补方法有效
申请号: | 201910892758.3 | 申请日: | 2019-09-20 |
公开(公告)号: | CN110826718B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 许志城;徐康康;杨海东;印四华;朱成就 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06N7/00 | 分类号: | G06N7/00;G06F16/21;G06F16/28 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杨晓松 |
地址: | 510062 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 朴素 贝叶斯 不等 缺失 数据 填补 方法 | ||
本发明公开了一种基于朴素贝叶斯的大段不等长缺失数据填补方法,用朴素贝叶斯的思想结合时间序列分析技术对大量已有数据建立概率模型作为数据修补模型,保证模型可以较好地拟合数据的变化规律。使用数据修补模型循环预测出空缺段可能的序列组合,在约束条件的作用筛选出符合空缺段的序列,最终完成缺失数据的数据修补。
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种对工业能源管理系统数据采集过程中出现的大段不等长的缺失数据的数据填补方法。
背景技术
工业大数据是智能制造与工业互联网的核心,其本质是通过促进数据的自动流动去解决和控制业务问题,减少决策过程中所带来的不确定性,并尽量克服人工决策的缺点。依托于采集到的数据,可以在工业过程和控制中开发人工智能的应用。
工业设备由于生产流程复杂、传感器数量众多且取样频率快,在短时间内容易累积大量的数据,其主要呈现出机理模型复杂、时间序列排布,呈现出随时间变化而变化的关联性和规律性、数据依赖性强、数据维度高且存在大量无标签数据等特点。
在生产过程中,成千上万的传感器担负着各种各样过程变量的测量任务,是优化程序得以实施的唯一信息来源。在长时间运行过程中,传感器会出现不同程度的精度下降、偏离、漂移,有时甚至会完全失效出现故障并需要拆下来进行检修,这就带来了缺失数据和异常数据的问题。另外,在数据录入过程中认为不重要而未输入以及数据写入数据库的过程也会带来数据缺失问题。在数据缺失中采用均值填补或其他单一简单的填补方式,将会影响采集数据的可靠性。特别是在多设备、多级表计的数据统计环境下,某些数据的不确定性容易让数据分析人员造成误解。
以佛山某铝型材厂的能源管理系统为例,该厂在生产环境中布置了超过150个表计,由于网络波动、电磁干扰等因素,部分设备生产数据的采集经常会出现中断的情况,严重的情况下,中断的时间段长达几个小时,严重影响了采集数据的完整性。对生产数据进行符合生产规律的修补,可以保证采集数据的完整性,对于数据分析人员有极大的价值。
目前大多数研究都是针对单点或者固定长度的数据缺失进行填补,当待修补的序列长度发生变化时,往往要重新训练数据修补模型;并且数据规律发生变化时,模型的更新迭代需要人工的深度参与,过程计算复杂度高,无法快速适应不同长度的数据缺失段的修补和逐渐变化的生产规律。
发明内容
本发明的目的是提供一种基于朴素贝叶斯的大段不等长缺失数据填补方法,依据采集到的历史数据建立数据修补模型,可用于工业能源管理系统中高效率处理大段长度不等的缺失数据填补任务。
为了实现上述任务,本发明采用以下技术方案:
一种基于朴素贝叶斯的大段不等长缺失数据填补方法,包括以下步骤:
采集生产数据,并进行生产数据的预处理,包括对生产数据进行固定频率的降采样,以取得固定时间间隔的生产数据序列;对生产数据序列中的生产数据做偏移量计算,得到偏移序列,并去除偏移序列中的异常值,得到新的偏移序列;
自定义尺度,利用所述新的偏移序列中的最大值和最小值,确定标尺刻度,并建立标尺数组;利用标尺数组标量化所述新的偏移序列,得到标量化后的序列;利用滑动窗口从所述标量化后的序列中取得固定子序列长度的短序列集合;
从所述短序列集合中抽取靠近待修补数据一定时间范围内的短序列子集,对短序列子集中所有的短序列进行切割,指定切割长度并将每个短序列切割成两段,一段作为匹配段,另一段作为预测段;
利用朴素贝叶斯法建立数据修补模型,利用数据修补模型进行待修补数据的修补。
进一步地,所述的去除偏移序列中的异常值,得到新的偏移序列,包括:
求得偏移序列U的平均数μ及其标准差σ;利用平均数μ及其标准差σ对偏移序列U中的数据进行筛选,得到新的偏移序列U0;表示如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910892758.3/2.html,转载请声明来源钻瓜专利网。