[发明专利]一种基于生成对抗网络的多源异构数据清洗方法在审
申请号: | 202310137600.1 | 申请日: | 2023-02-20 |
公开(公告)号: | CN116166650A | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 李孝斌;陈晨;江沛;尹超;王励豪 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06N3/094;G06F16/22;G06F16/28;G06F18/23213;G06F18/214;G06N3/04 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 张乙山 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 多源异构 数据 清洗 方法 | ||
本发明涉及智能制造技术领域,具体涉及一种基于生成对抗网络的多源异构数据清洗方法,包括:获取智能生产线的多源异构数据,并将各多源异构数据合成为对应的多源异构数据融合表;通过聚类分析算法对多源异构数据融合表中残留的冗余数据、异常数据和缺失数据进行分析,进而确定有缺失数据的多源异构数据;将有缺失数据的多源异构数据输入经过训练的生成对抗网络模型中,输出对应的缺失数据填补矩阵;通过缺失数据填补矩阵对有缺失数据的多源异构数据进行填充,以实现多源异构数据的融合和清洗。本发明能够划分出有缺失数据的多源异构数据,并且能够对有缺失数据的多源异构数据进行填充以实现多源异构数据的融合和清洗。
技术领域
本发明涉及智能制造技术领域,具体涉及一种基于生成对抗网络的多源异构数据清洗方法。
背景技术
随着现代制造业向着自动化、信息化、智能化方向快速发展,生产过程中会产生大量的多源异构数据,多源异构数据是指在生产制造环境中,将来自多个数据源且采用不同存储方式的一组数据的集合。由于硬件设备固有的限制以及环境噪声等因素的影响,感知设备不可避免地存在漏读、多读、错读等现象,导致感知数据的数据质量降低。然而,数据是信息的载体,其能否准确反映物理世界的真实信息是决定其在上层应用中发挥效用的关键。对多源异构数据的有效处理可为生产制造者提供更有效的生产调度、设备管理等策略,从而提高生产质量和效率。
目前,针对智能制造设备多源异构数据的分析方法层出不穷,而对于多源异构数据清洗及数据填补技术却鲜有耳闻。为此,公开号为CN112347093A的中国专利公开了《便于海量多源异构数据的清洗整合存储的方法》,其通过构造数据源集合、遍历集合,记录类型及数据协议、数据接入环节、协议适配环节,形成1阶数据,推送缓存队列、拉取1阶数据,清洗环节,形成2阶数据,推送缓存队列、取2阶数据,主被动混合模式转换整合环节,形成3阶数据,推送缓存队列以及最终拉取3阶数据,分布存储环节,完成最终存储。
上述现有方案主要用于降低海量多源异构数据在清洗整合存储各环节的耦合程度,而无法真正实现智能生产线的多源异构数据融合和清洗。因此,如何设计一种能够对智能生产线的多源异构数据进行有效融合和清洗的方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于生成对抗网络的多源异构数据清洗方法,能够划分出有缺失数据的多源异构数据,并且能够对有缺失数据的多源异构数据进行填充以实现多源异构数据的融合和清洗,从而能够提高多源异构数据清洗的准确性和有效性,并为保证智能生产线多源异构数据的数据质量提供了一种比较切实可行的解决方案。
为了解决上述技术问题,本发明采用了如下的技术方案:
基于生成对抗网络的多源异构数据清洗方法,包括:
S1:获取智能生产线的多源异构数据,并将各多源异构数据合成为对应的多源异构数据融合表;
S2:通过聚类分析算法对多源异构数据融合表中残留的冗余数据、异常数据和缺失数据进行分析,进而确定有缺失数据的多源异构数据;
S3:将有缺失数据的多源异构数据输入经过训练的生成对抗网络模型中,输出对应的缺失数据填补矩阵;
S4:通过缺失数据填补矩阵对有缺失数据的多源异构数据进行填充,以实现多源异构数据的融合和清洗。
优选的,步骤S1中,将各个多源异构数据对应的数据表导入数据仓库合成对应的多源异构数据融合表;合成过程中,检测并删除存在关联规则错误的异常数据。
优选的,步骤S2中,选择改进K-means算法作为聚类分析算法;改进K-means算法将编辑距离作为数据间相似度的度量指标,进而利用相距最远的数据不属于同一类别的特点来实现通过数据间的最大距离自动确定聚类中心和聚类个数。
优选的,步骤S2中,改进K-means算法的工作逻辑如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310137600.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:解码方法及解码装置
- 下一篇:一种太赫兹光纤-空间模式适配器