[发明专利]基于过滤规则多级组合优化的工业数据流清洗模型和方法在审
申请号: | 202210454916.9 | 申请日: | 2022-04-27 |
公开(公告)号: | CN114896228A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 张映锋;张诚;张党;刘佳杰 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06K9/62;G06F17/18;G06N5/00;G06N20/00 |
代理公司: | 西安匠星互智知识产权代理有限公司 61291 | 代理人: | 王凯敏 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 过滤 规则 多级 组合 优化 工业 数据流 清洗 模型 方法 | ||
为解决数据流清洗算法适用的数据类型单一以及难以动态优化以适应外部环境变化的技术问题,本发明提出了一种基于过滤规则多级组合优化的工业数据流清洗模型和方法,将数据检测、修复、过滤规则配置、过滤规则优化融为一体,能够为规则匹配模型提供可信任的数据输入;将主成分分析与随机森林算法引入规则匹配模型的构建,能在依据输入数据特征自匹配合适数据过滤规则的同时,通过获取解释能力更强的低维数据提高自匹配精度;所设计的过滤规则库具有可重构与可拓展特点并支持对规则的复杂逻辑描述,在对清洗后数据引入质量评估与反馈后,能够以自学习与自适应的方式应对多场景下多源数据的处理,突破传统面向单一应用场景的数据清洗算法的局限性。
技术领域
本发明涉及一种数据流清洗模型、方法、存储介质和电子设备,能够实现对脏数据流的自学习、自匹配式的检测和修复,从而提高数据的准确性和可信性。
背景技术
先进传感技术、物联技术、人工智能技术在驱动工业领域向“多维度、透明化、泛在感知”全新模式转变的同时,对智能决策所输入数据的质量与效率提出了更高的需求。但随机外部扰动等问题常导致所采集的数据存在缺失、噪声、重复等质量问题,大量研究表明数据质量异常将严重影响决策与分析的可靠性及正确性。因此数据清洗已成为数据仓库领域、数据挖掘领域以及数据质量管理领域一项关键研究内容。
近年来,在数据清洗方面的研究主要有:
江苏满运软件科技有限公司公开的发明专利《数据清洗方法、系统、存储介质及电子设备》(201811627786.4),通过选择数据源的目标源表,确定数据来源并进行数据清洗,降低数据同步的出错率。
武汉理工光科股份有限公司公开的发明专利《一种多级平台间数据清洗与同步方法及系统》(202010784073.X),通过多级平台对数据进行多层次性的清洗,确保数据的可靠性和有效性。
蔚来汽车有限公司公开的发明专利《脏数据识别方法及装置、数据清洗方法及装置、控制器》(201810737680.3),提出了一种脏数据识别和清理方法,首先提取领域规则库,然后通过多重判别规则对脏数据进行识别和清洗。
大连海事大学公开的发明专利《一种面向海洋数据流的数据清洗方法和系统》(201910432271.7),对实时数据流进行有限的一体式异常点检测、异常点修复和缺失值填补。
东北电力大学公开的发明专利《一种基于关联规则的电网设备数据流清洗方法》(201910475890.4),基于关联规则对电网设备数据流进行清洗,将多种小波基函数的神经网络应用到数据清洗中,完成组合预测。
上述研究和发明创造在数据流清洗的自动化与实时性等方面已发挥一定的推动作用,但仍存在以下问题:
1)数据流清洗过程中仅针对特定类型的数据错误进行检测与修复,无法以自匹配方式有效应对数据种类与数据错误类型多样的应用场景;
2)数据清洗过程中无法实现基于实时数据的清洗算法自学习与自适应。
发明内容
为解决数据流清洗算法适用的数据类型单一以及难以动态优化以适应外部环境变化的技术问题,本发明提出了一种基于过滤规则多级组合优化的数据流清洗模型、方法、存储介质和电子设备,目的是通过过滤规则与数据特征间的自匹配,实现面向多数据种类与多数据错误类型的数据清洗,提高数据清洗算法的自学习与自适应能力。
本发明的技术方案是:
基于过滤规则多级组合优化的数据流清洗模型,其特殊之处在于:所述数据流清洗模型是按照下述方法建立的:
步骤1:数据流初步检测;
对输入的初始数据流进行初步检测,包括数据超出阈值、重复、缺失、不一致检测,并使用NA替换检测出的异常数据;
步骤2:训练数据集构造;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210454916.9/2.html,转载请声明来源钻瓜专利网。