[发明专利]一种基于生成对抗网络的多源异构数据清洗方法在审
申请号: | 202310137600.1 | 申请日: | 2023-02-20 |
公开(公告)号: | CN116166650A | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 李孝斌;陈晨;江沛;尹超;王励豪 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06N3/094;G06F16/22;G06F16/28;G06F18/23213;G06F18/214;G06N3/04 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 张乙山 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 多源异构 数据 清洗 方法 | ||
1.基于生成对抗网络的多源异构数据清洗方法,其特征在于,包括:
S1:获取智能生产线的多源异构数据,并将各多源异构数据合成为对应的多源异构数据融合表;
S2:通过聚类分析算法对多源异构数据融合表中残留的冗余数据、异常数据和缺失数据进行分析,进而确定有缺失数据的多源异构数据;
S3:将有缺失数据的多源异构数据输入经过训练的生成对抗网络模型中,输出对应的缺失数据填补矩阵;
S4:通过缺失数据填补矩阵对有缺失数据的多源异构数据进行填充,以实现多源异构数据的融合和清洗。
2.如权利要求1所述的基于生成对抗网络的多源异构数据清洗方法,其特征在于:步骤S1中,将各个多源异构数据对应的数据表导入数据仓库合成对应的多源异构数据融合表;合成过程中,检测并删除存在关联规则错误的异常数据。
3.如权利要求1所述的基于生成对抗网络的多源异构数据清洗方法,其特征在于,步骤S2中,选择改进K-means算法作为聚类分析算法;
改进K-means算法将编辑距离作为数据间相似度的度量指标,进而利用相距最远的数据不属于同一类别的特点来实现通过数据间的最大距离自动确定聚类中心和聚类个数。
4.如权利要求3所述的基于生成对抗网络的多源异构数据清洗方法,其特征在于,步骤S2中,改进K-means算法的工作逻辑如下:
S201:将多源异构数据融合表的记录集合转化为对应的字符串集合A={a1,a2,…,an},并计算字符串集合中两两字符串间的编辑距离,生成对应的编辑距离结果集合G;
S202:选取编辑距离结果集合G中,距离最大的两个数据对象和作为初始两个聚类S1和S2的聚类中心,和之间的距离记为d1,即
将字符串集合A中除和以外的数据对象,以和为聚类中心进行分类,若ai∈A且ai和的编辑距离小于则将ai划分到S1,否则ai划分到S2;
S203:取S1中所有数据对象到的编辑距离的最大值d11,即取S2中所有数据对象到的编辑距离的最大值d22,即
取d11和d22的最大值d2,记d2=max{d11,d22};
S204:若d2>k*d1,则取对应的数据对象作为第三个聚类S3的聚类中心
以和作为聚类中心进行聚类划分形成S1、S2和S3三个聚类,即若ai∈A且则将ai划分到S1,若ai∈A且则将ai划分到S2,否则ai划分到S3;
S205:取S1中所有数据对象到的编辑距离的最大值d11,即取S2中所有数据对象到的编辑距离的最大值d22,即取S3中所有数据对象到的编辑距离的最大值d33,即
取d11、d22和d33的最大值d3,记d3=max{d11,d22,d33};
S206:若d3>k*(d2+d1)÷2,则取对应的数据对象作为第四个聚类S4的聚类中心以和作为聚类中心进行聚类划分形成S1、S2、S3和S4四个聚类;
S207:重复步骤S204至S206,直到无法满足聚类条件时,输出对应的数据聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310137600.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:解码方法及解码装置
- 下一篇:一种太赫兹光纤-空间模式适配器