[发明专利]一种不完整物联网数据混合填充方法有效
申请号: | 201510274616.2 | 申请日: | 2015-05-26 |
公开(公告)号: | CN104866578B | 公开(公告)日: | 2018-01-26 |
发明(设计)人: | 陈志奎;赵亮;杨镇楠 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连理工大学专利中心21200 | 代理人: | 关慧贞,梅洪玉 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种不完整数据混合填充方法,包括步骤(1)对数据集中缺失数据值进行特殊值填充预处理;(2)利用栈式自动编码机提取数据属性重要特征;(3)基于提取特征对填充后的数据集进行增量聚类;(4)在得到的每一个聚类结果中利用与缺失数据对象最相似的前k%个对象相应属性值,对其进行属性值加权填充。判断本次所有缺失数据填充值与上一次填充值的差异,迭代更新(2)‑(4)直至满足填充值收敛条件。本发明实施考虑数据集中数据的局部相似特性,数据聚类的精确性,类中数据填充的准确性,以及算法实际应用的非监督性与时效性,构建不完整数据先聚类后填充算法,并利用特殊值填充、栈式自动编码机、增量聚类、类内前k%完整数据对象加权填充等思想保证填充结果的精度和填充算法的速度。 | ||
搜索关键词: | 一种 完整 数据 混合 填充 方法 | ||
【主权项】:
一种不完整物联网数据混合填充方法,其特征在于,包括如下步骤:(1)对数据集中所有缺失数据属性值进行特殊值填充预处理;在算法执行初始阶段,将数据集中所有缺失数据属性值设置为不同于所有已知数据属性值的一个特殊值;(2)利用栈式自动编码机提取数据对象重要特征以自动编码机为基础模块构建自底向上的栈式自动编码机深度学习网络,并根据逐层训练思想和反向传播算法计算、更新网络参数,提取数据对象的重要特征;在自动编码机训练的过程中,输入数据经过隐藏层,在输出层重构,然后通过反向传播算法更新网路参数,当训练稳定时,在隐藏层保留了重构数据的重要特征;每一层自动编码机提取的数据特征都将作为上一层的输入,继续完成训练过程,最上层提取的特征即为整个栈式学习网络的输出;(3)基于提取的数据特征对填充后的数据集进行增量聚类在聚类初始阶段读取数据特征集的前k条数据作为初始聚类中心,并维护各中心点和中心点间相似度矩阵,从第k+1条数据特征开始,计算其与现有各聚类中心间的相似度,得到相似度最大值maxValue,值越大越相似;如果maxValue小于等于中心点间相似度矩阵的最小值,将当前数据点设定为聚类中心;如果maxValue大于等于中心点间相似度矩阵的最大值,将当前数据点划分到与其最相似的中心点代表的簇中;如果maxValue小于中心点间相似度矩阵最大值,同时大于中心点间相似度矩阵的最小值,合并中心点最相似的两个簇,并将当前数据点设定为新的聚类中心点;更新中心点和中心点间相似度矩阵,继续读取下一条数据直到处理结束;(4)在得到的每一个聚类结果中利用与缺失数据对象最相近的前k%个对象相应属性值,对其进行属性值加权填充;在得到的每一个数据类中判断含有缺失属性值的数据对象比例,如果其超过给定阈值,将类中数据划分到与其最相似的中心点所代表的其他簇中,再在对应类中完成缺失数据填充;如果缺失数据比例小于阈值,则在类中计算含有缺失数据对象与其他对象的相似度,选取相似度最大且对应属性值不缺失的前k%个数据对象,利用其对应属性值进行相似度加权填充;(5)判断本次所有缺失数据填充值与上一次填充值的差异,迭代更新(2)‑(4)直至满足填充值收敛条件;对数据集中所有缺失数据属性值填充结束后,通过比较连续两次填充结果的误差判断算法是否收敛;如果满足算法收敛条件,当前填充结果为算法执行填充最终结果,否则,更新缺失数据填充值为当前计算得到的填充值,重新执行缺失值填充过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510274616.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种羽毛球场地查询方法、装置及系统
- 下一篇:一种文本分类的方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置