[发明专利]基于过滤规则多级组合优化的工业数据流清洗模型和方法在审
申请号: | 202210454916.9 | 申请日: | 2022-04-27 |
公开(公告)号: | CN114896228A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 张映锋;张诚;张党;刘佳杰 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06K9/62;G06F17/18;G06N5/00;G06N20/00 |
代理公司: | 西安匠星互智知识产权代理有限公司 61291 | 代理人: | 王凯敏 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 过滤 规则 多级 组合 优化 工业 数据流 清洗 模型 方法 | ||
1.基于过滤规则多级组合优化的数据流清洗模型,其特征在于:所述数据流清洗模型是按照下述方法建立的:
步骤1:数据流初步检测;
对输入的初始数据流进行初步检测,包括数据超出阈值、重复、缺失、不一致检测,并使用NA替换检测出的异常数据;
步骤2:训练数据集构造;
选取异常最少的一段原始数据D,并向原始数据D中加入不同程度的异常数据进行脏化处理,以模拟数据清洗方法应用阶段将遇到的各种数据异常问题,得到脏数据集即为训练数据集;
步骤3:数据特征提取;
从集中趋势、离散程度、分布形态和其他特征四方面,对输入的训练数据进行数据特征提取;所述其他特征包括数据相关性、数据自相关性、数据量和缺失比例;
步骤4:数据过滤规则库建立;
根据所采集数据可能出现的各种质量问题及智能决策对输入数据的质量需求,选取多种异常检测算法和异常修复算法进行自由组合、逐一匹配集成,形成面向异常数据的异常检测算法-异常修复算法的多种数据过滤规则,将其放入数据过滤规则库中;
步骤5:数据特征-规则关联链构建;
使用数据过滤规则库中的各条数据过滤规则,依次对步骤2得到的训练数据集R中的数据进行清洗,并将清洗后数据与原始数据D的相对误差作为评价指标,选取评价最高的数据过滤规则并将其写入数据特征-规则关联链;
步骤6:规则匹配模型构造;
针对构建的数据特征-规则关联链,进一步学习数据特征和规则之间的匹配关系,构建规则匹配模型,该规则匹配模型即为所述数据流清洗模型。
2.根据权利要求1所述的数据流清洗模型,其特征在于,还包括步骤7:利用所述数据清洗模型对实际输入数据进行清洗后的数据进行质量评估,若评估结果超出所设阈值,则重复步骤6以更新所述数据流清洗模型。
3.根据权利要求1或2所述的数据流清洗模型,其特征在于,所述步骤4中:
异常检测算法包括3倍标准差法、箱型法和基于密度的空间聚类算法;
异常修复算法包括就近填补法、基于平均值的填补法、基于相关性的填补法和加权移动平均法。
4.根据权利要求3所述的数据流清洗模型,其特征在于,所述步骤5具体为:
步骤5.1:构建数据特征-规则关联链,将其表示为:
RuCh=Num,Fea,G
式中,Num为样本序号;Fea为步骤3提取的数据特征集合;G为类别标签,代表对应特征集合Fea的最合适数据过滤规则;
步骤5.2:分别使用各数据过滤规则中的算法对所述训练数据集进行处理,获得清洗后数据矩阵Rk,并计算Rk与原始数据D的相对误差将其表示为:
式中,当1≤Num≤m时,num=Num,当mNum≤mp,num=Num%m;m为采集所述初始数据流的传感器数目;
步骤5.3:比较相对误差的大小,令G等于获取最小相对误差的数据过滤规则类别标签,从而使数据特征-规则关联链RuCh=Num,Fea,G中每一数据特征Fea对应的数据过滤规则为最优,将其表示为:
式中,s为数据过滤规则库中的数据过滤规则的数目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210454916.9/1.html,转载请声明来源钻瓜专利网。