[发明专利]一种面向MES的数据清洗方法及系统有效
申请号: | 202011387905.0 | 申请日: | 2020-12-01 |
公开(公告)号: | CN112416920B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 柴森春;董腾硕;王昭洋;姚分喜;张百海;崔灵果;李慧芳 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/21 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 王爱涛 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 mes 数据 清洗 方法 系统 | ||
本发明公开了一种面向MES的数据清洗方法及系统,所述数据清洗方法包括:采用可变窗口的SNM算法计算待清洗数据中每两条记录之间的相似度;根据每两条记录之间的相似度,对待清洗数据中的重复数据进行处理,获得处理后的数据;采用KNN缺失填充算法填补处理后的数据中的缺失数据,获得清洗后的数据。本发明采用改进的SNM算法计算记录之间的相似度,并根据相似度进行重复数据处理和缺失数据填补,本发明实现了对MES中的数据进行数据清洗,减小了MES中的数据中的重复数据,并补充了MES中的数据中的缺失数据,克服了重复数据占用数据库的存储资源以及相似重复数据和缺失数据对生产管理与决策产生不良影响的技术缺陷。
技术领域
本发明涉及数据处理技术领域,特别涉及一种面向MES的数据清洗方法及系统。
背景技术
在制造生产中MES(Manufacturing Execution System,制造执行系统)的数据库中会存入大量的数据,由于设备、技术等原因,难免会出现一些缺失数据、相似重复数据的异常情况,这些数据可能会对生产管理与决策产生不良影响,也可能由于无法被利用造成数据库的存储资源的浪费。
近年来,数据挖掘在信息产业领域的应用越来越频繁,被越来越多的应用于MES系统的数据处理中。据统计在一个完整的数据挖掘过程中,数据预处理要花费约60%左右的时间。数据清理是数据预处理的重要组成部分。数据挖掘结果的准确性与数据集中的数据的准确性有关,如果数据集中的数据不准确,那么数据挖掘的结果必然会受到影响。数据清洗主要是处理缺失数据和清洗脏数据。数据清洗的原理是利用算法、构建模型、专家参与等方式,分析问题数据将其转换为满足完整性、一致性、有效性等数据质量要求的数据,从而达到提高数据质量的要求。
由于MES中的数据是多源的,容易出现相似重复数据的情况,另外传感器故障、采集和传输过程干扰或生产状态的改变,可能会出现部分数据的缺失。
现有的MES系统缺少对数据库进行清洗的方法,存在重复数据占用数据库的存储资源以及相似重复数据和缺失数据对生产管理与决策产生不良影响的缺陷。数据清洗包括缺失数据和相似重复数据的处理。数据库中的相似重复记录是指那些客观上表示现实世界同一实体,但是由于来自于不同数据源而产生的重复记录或在格式和拼写上有差异而导致数据库管理系统不能正确识别的记录。相似重复记录分为两大类,一类是完全一致的记录,另一类是相似但是不完全相同的记录。缺失值是由于传感器故障、采集和传输过程干扰或生产状态的改变等原因产生的空缺数据。
如何对MES中的数据进行数据清洗,以减小MES中的数据中的重复数据,并补充MES中的数据中的缺失数据,成为一个亟待解决的技术问题。
发明内容
本发明的目的是提供一种面向MES的数据清洗方法及系统,以实现对MES中的数据进行数据清洗,减小MES中的数据中的重复数据,并补充MES中的数据中的缺失数据。
为实现上述目的,本发明提供了如下方案:
一种面向MES的数据清洗方法,所述数据清洗方法包括如下步骤:
采用可变窗口的SNM算法(Sorted-neighborhood Method,邻近排序算法)计算待清洗数据中每两条记录之间的相似度;
根据每两条记录之间的相似度,对待清洗数据中的重复数据进行处理,获得处理后的数据;
根据每两条记录之间的相似度,采用KNN(K-nearestNeighbour,K近邻)缺失填充算法填补处理后的数据中的缺失数据,获得清洗后的数据。
可选的,所述采用可变窗口的SNM算法计算待清洗数据中每两条记录之间的相似度,具体包括:
判断窗口内第一条记录与最后一条记录的相似度是否小于第一相似度阈值,获得第一判断结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011387905.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电芯入壳装置及方法
- 下一篇:用于柱塞泵的润滑系统和柱塞泵
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置