[发明专利]结合局部信息的不完整数据相似性刻画方法在审
申请号: | 201610838409.X | 申请日: | 2016-09-14 |
公开(公告)号: | CN107818328A | 公开(公告)日: | 2018-03-20 |
发明(设计)人: | 陈松灿;贺丹 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种不完整数据集的相似性刻画方法,针对真实数据信息常存在不完整或不完全的情况,利用数据局部信息的相似性进行缺失(missing)项估计。主要包括六个步骤1、对不完整数据集进行数据预处理,对不完整数据的缺失项进行特征平均值初始化;2、利用核模糊C均值聚类算法(KFCM)对初始化后的数据集进行聚类,并利用凸差(DC)规划对KFCM的非凸目标函数进行优化;3、求得数据聚类中心和隶属度,将数据缺失项等同地视为目标优化变量进行估值;4、利用k近邻填补算法(kNNI)估算数据缺失值;5、将步骤3与4的估值按参数加权,并优化获取最优填补值再次更新缺失项;6、重复步骤2‑5至迭代收敛条件满足。本方法能快速准确地估算出不完整数据中缺失值。 | ||
搜索关键词: | 结合 局部 信息 完整 数据 相似性 刻画 方法 | ||
【主权项】:
一种结合局部信息的不完整数据相似性刻画方法,其特征在于,包括下列步骤:第一步,对不完整数据集进行数据预处理,对不完整数据的缺失项进行特征平均值初始化;由数据集中包含缺失项的某列特征计算其已知项的平均值,填写缺失项的值,并在算法的初始化阶段由核模糊C均值聚类算法迭代计算五次得到相应的初始聚类中心和初始隶属度矩阵;第二步,利用核模糊C均值聚类算法(KFCM)对初始化后的数据集合聚类,并利用凸差(DC)规划对KFCM非凸目标函数进行优化;先对聚类中心和数据隶属度的可行域分别凸化处理,将其可行域扩展为相应的凸集;再对KFCM目标函数进行DC分解,将非凸目标函数变为两个凸函数之差的形式;然后利用DCA算法优化上述DC问题,以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数,根据对偶理论定义原DC问题和对偶DC问题的关系,微分并投影到凸化可行域,求得算法的聚类中心和隶属度矩阵;第三步,求得数据聚类中心和隶属度,将数据缺失项视为目标优化变量,记录缺失项的行标号和列标号,利用拉格朗日乘子法和KKT条件求取最优值,即对缺失项求目标函数的导数并令其为零,可优化求解得到其最优的估值;第四步,利用k近邻填补算法(kNNI)计算数据缺失项的估计值,将k近邻算法运用到数据填补中,利用与缺失记录最相似k条记录的加权均值作为填补值;第五步,将第三步与第四步的估值按参数加权,并优化获取最优填补值再次更新缺失项;第六步,判断本次缺失项填补值与上一次缺失项填补值之间的差是否小于给定的阈值,迭代更新第二、三、四、五步直至满足收敛条件;对数据集中所有缺失数据项填补更新完成后,通过比较本次与上一次结果之间的误差判断算法是否收敛;若满足算法收敛条件,即误差小于给定阈值,当前更新结果为算法执行的最终结果;否则,更新缺失数据项为当前求得的最优值,重新进行迭代求解过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610838409.X/,转载请声明来源钻瓜专利网。
- 上一篇:分类器训练方法及装置
- 下一篇:一种质谱数据分析方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置