[发明专利]基于DC规划处理缺失数据的聚类方法在审
申请号: | 201610216242.3 | 申请日: | 2016-04-05 |
公开(公告)号: | CN107291765A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 陈松灿;贺丹 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于DC规划处理缺失数据的聚类方法,针对现实应用中真实采集的数据集常出现数据缺失的情况进行缺失项估计。主要包括四个步骤1、对数据集缺失项采用该特征的平均值进行初始化处理;2、采用核模糊C均值聚类算法(KFCM)对预处理后数据集聚类,并采用凸差(DC)方法对KFCM目标函数进行非凸规划优化,使最优解尽可能跳出局部极值点的吸引域;3、求得聚类中心和数据隶属度后,将缺失数据项看作变量进行优化,以优化估计值更新缺失项;4、判断本次中所有缺失数据优化解与上一次缺失优化解的差是否小于给定阈值,迭代更新2、3直至满足收敛条件。本方法能够快速地求得缺失项的估计值,并提高原KFCM算法的聚类精度,且适用于大规模数据集。 | ||
搜索关键词: | 基于 dc 规划 处理 缺失 数据 方法 | ||
【主权项】:
一种基于DC规划处理缺失数据的聚类方法,其特征在于,包括下列步骤:第一步,对数据集缺失项采用该特征的平均值进行初始化处理;在算法的初始化阶段,由KFCM算法迭代计算五次得到相应的初始聚类中心和初始隶属度矩阵,由数据集中包含缺失项的某列特征计算已知项平均值作为初始缺失值;第二步,采用核模糊C均值聚类算法(KFCM)对预处理后数据集聚类,并采用凸差(DC)方法对KFCM目标函数进行非凸规划优化,使最优解尽可能跳出局部极值点的吸引域;先对聚类中心和隶属度的可行域分别进行凸化,将可行域扩展为相应的凸集;再对KFCM目标函数进行DC分解,将非凸目标函数变为两个凸函数之差的形式;然后利用DCA算法优化DC规划,以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数,根据对偶理论探讨原问题和对偶问题的关系,微分并投影求得聚类算法的聚类中心和隶属度矩阵;第三步,求得聚类中心和数据隶属度后,将缺失数据项统一看作变量,记录缺失项的行标号和列标号,利用拉格朗日乘子法和KKT条件求取最优值,即对缺失项求目标函数的导数并令其为零,可求得其最优值,再以最优的估计值更新缺失数据项;第四步,判断本次所有缺失数据优化解与上一次缺失优化解的差是否小于给定阈值,迭代更新第二、三步直至满足收敛条件;对数据集中所有缺失数据项更新完成后,通过比较本次与上一次结果的误差判断算法是否收敛;若满足算法收敛条件,即误差小于给定阈值,当前更新结果为算法执行的最终结果;否则,更新缺失数据项为当前求得的最优值,重新进行迭代求解过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610216242.3/,转载请声明来源钻瓜专利网。