[发明专利]基于DC规划处理缺失数据的聚类方法在审

专利信息
申请号: 201610216242.3 申请日: 2016-04-05
公开(公告)号: CN107291765A 公开(公告)日: 2017-10-24
发明(设计)人: 陈松灿;贺丹 申请(专利权)人: 南京航空航天大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 211106 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 dc 规划 处理 缺失 数据 方法
【说明书】:

一、技术领域

发明涉及一种基于DC规划理论和核模糊C均值聚类算法实现缺失数据集聚类的方法,多应用于数据挖掘领域,尤其适用大规模数据集聚类。

二、背景技术

随着现代信息技术的不断发展,人们能够轻易地获取庞大的数据资源,数据挖掘和分析技术变得越来越重要。聚类分析作为数据挖掘技术的重要工具,常用来对数据进行预处理,是其不可或缺的子领域。由于数据的快速增长,收集的数据资源中数据项缺失的情况也日益严重,这无疑增加了数据分析处理的难度。因此,如何有效地对缺失数据集进行处理成为现下亟待解决的问题。

近年来,国内外学者提出了各种不同的处理方法,已有的方法包括:将不完整的数据项直接删除处理;对含有缺失值的数据项使用部分距离进行度量;将缺失数据项当成额外变量进行最小值填充等。但这些方法都是针对缺失项数据进行单独处理,并未考虑缺失项对聚类过程的影响。因此,Hathaway等人提出在计算聚类中心、隶属度等聚类结果与计算缺失项估计值交替进行,既保证聚类性能又保证了缺失项尽可能接近所属类的聚类中心特征值。在模糊C均值聚类算法对缺失数据项训练填充的基础上,Zhang等人提出引入核方法,将数据从原空间映射到特征空间并在特征空间中进行聚类,该方法被称为核模糊C均值聚类算法(KFCM)。然而,由于KFCM目标函数的非凸性,在算法优化过程中非凸函数往往会陷入局部极值解。为了改善目标非凸导致的解缺陷问题,我们拟采用DC规划将原算法的目标函数变为两个凸函数之差形式,利用DCA算法将凸差形式用一阶线性形式逼近,将目标函数转化为近似凸函数,期望能搜索到算法相对更优的解。其中,DC规划是非凸规划和全局优化的重要组成部分,已在经济、工程、计算数学等领域取得了广泛的应用。求解DC规划问题的算法有很多,主要可分为两类:一类是基于组合优化的算法(如分支定界方法,割平面法等等),通过某些变形来求解连续的问题,目的是要找出问题的全局最优解;第二类常用的算法在文献中通常被称为DCA算法。和组合优化的方法不同,DCA算法是基于凸分析和对偶理论的方法,通过讨论原始问题与对偶问题之间的关系来进行优化求解,在处理大规模问题时较之全局最优方法有很大的优势。

综上所述,考虑数据集中缺失项可能对聚类结果造成的影响,和缺失项估计值的准确性,本发明提出一种基于DC规划处理缺失数据的聚类方法,在聚类过程和缺失项填充过程的交替迭代求解中,尽可能地对所求结果进行优化调整。

三、发明内容

为解决现实应用中真实采集的数据集常出现数据缺失的情况,本发明提出一种基于DC规划处理缺失数据的聚类方法,具体步骤如下:

(1)初始化缺失数据项

在算法的初始化阶段,由KFCM算法迭代计算五次得到相应的初始聚类中心和初始隶属度矩阵,由数据集中包含缺失项的某列特征计算已知项的平均值作为初始缺失值。

(2)基于DC规划的KFCM聚类过程

采用核模糊C均值聚类算法(KFCM)对预处理后数据集聚类,并采用凸差(DC)方法对KFCM目标函数进行非凸规划优化,使最优解尽可能跳出局部极值点的吸引域。先对聚类中心和隶属度的可行域分别进行凸化,将可行域扩展为相应的凸集;再对KFCM目标函数进行DC分解,将非凸目标函数变为两个凸函数之差的形式;然后利用DCA算法优化DC规划,以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数,根据对偶理论探讨原问题和对偶问题的关系,微分并投影求得聚类算法的聚类中心和隶属度矩阵;

(3)计算缺失数据项估计值

求得聚类中心和数据隶属度后,将缺失数据项统一看作变量,记录缺失项的行标号和列标号,利用拉格朗日乘子法和KKT条件求取最优值,即对缺失项求目标函数的导数并令其为零,可求得其最优值,再以最优的估计值更新缺失数据项;

(4)判断结果是否收敛

对数据集中所有缺失数据项更新完成后,通过比较本次缺失数据估计值与上一次结果的误差判断算法是否收敛;若满足算法收敛条件,即误差小于给定阈值,当前更新结果为算法执行的最终结果;否则,更新缺失数据项为当前求得的最优值,重新进行迭代求解过程直至满足收敛条件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610216242.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top