[发明专利]结合局部信息的不完整数据相似性刻画方法在审
申请号: | 201610838409.X | 申请日: | 2016-09-14 |
公开(公告)号: | CN107818328A | 公开(公告)日: | 2018-03-20 |
发明(设计)人: | 陈松灿;贺丹 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 局部 信息 完整 数据 相似性 刻画 方法 | ||
一、技术领域
本发明涉及一种基于DC规划的不完整数据相似性刻画方法,并利用k近邻填补算法来结合数据间的局部信息,使缺失项填补值或估算更为准确,可应用于诸如社会调查表、金融行业数据、天文采集数据、医疗信息数据或者各种网络数据等存在数据缺失项的数据分析场合。
二、背景技术
数据缺失在实际中是经常发生的,甚至不可避免的。由于某些信息无法获取或者在采集过程中被遗漏,以及对数据结构的理解差异等原因,部分数据会被标记为空白、未知或由特殊标志表示,这种数据通常被称为缺失数据(missing data)或者不完整数据(incomplete data)。数据缺失对数据挖掘的过程和结果都有不利影响,会对后续的数据分析造成相当大的困难。数据缺失可能直接影响到挖掘模式发现的准确性和运行性能,甚至导致输出错误的挖掘模型。处理有缺失数据的数据集也是非常困难的,因为现有的数据挖掘算法通常假设输入的数据是无缺失的。因此,如何高效而准确地处理不完整数据集并对其进行后续的数据挖掘和分析,是一个亟待解决的问题。
目前处理不完整数据的方法包括:直接删除法,只适用于具有缺失项的样本数很少的情况,否则会导致结果偏差较大;相似性传播算法将全部样本看作网络节点,通过网络中各边的信息传递来确定样本的聚类中心;特征加权惩罚项距离度量在k-means算法基础上,对缺失数据施加相应距离惩罚项,以弥补缺失项在聚类过程中造成的损失;k近邻填补算法根据两个样本间距离,选择不完整数据样本的k个最近邻的平均值进行填充;基于核模糊C均值聚类的不完整数据填补算法,通过引入核方法获得了更优的算法聚类性能和更好的对复杂数据结构的处理能力。
三、发明内容
为了提高现有不完整数据聚类算法填补值的准确性,本发明提出一种不完整数据集的相似性刻画方法,利用了数据局部信息的相似性进行缺失项填补值的估计,具体步骤如下:
(1)不完整数据预处理
由数据集中包含缺失项的某列特征计算其已知项的平均值,用平均值作为缺失项的初始估计值,并在算法的初始化阶段,由核模糊C均值聚类算法(KFCM)迭代计算五次,得到相应的初始聚类中心和初始隶属度矩阵。
(2)基于DC规划的核模糊C均值聚类
先对聚类中心和数据隶属度的可行域分别凸化处理,将其可行域扩展为相应的凸集;再对KFCM目标函数进行DC分解,将非凸目标函数变为两个凸函数之差的形式;然后利用DCA算法优化上述DC问题,以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数,根据对偶理论定义原DC问题和对偶DC问题的关系,微分并投影到凸化可行域,求得算法的聚类中心和隶属度矩阵。
(3)利用拉格朗日乘子法计算数据缺失项的估值
在求得数据的聚类中心和隶属度之后,将缺失数据项统一看作目标变量,记录缺失项的行标号和列标号,利用拉格朗日乘子法和KKT条件求取最优值,即对缺失项求目标函数的导数并令其为零,优化求解得到其最优的估计值。
(4)利用k近邻填补算法计算数据缺失项的估值
最近邻算法的原理是指两个具有最近距离的事例的关系是最紧密的。因此,缺失数据的值可用它最近距离的事例该属性上的值来代替。将k近邻填补算法(kNNI)运用到数据填补中,利用与缺失记录最相似k条记录的加权均值作为填补估计值。
(5)加权估计值以更新数据缺失项
将第三步与第四步求得的估计值按参数加权,并优化获取最优填补估计值更新数据缺失项。
(6)判断结果是否收敛
对数据集所有缺失数据项填补更新完成后,通过比较本次与上一次结果之间的误差判断算法是否收敛;若满足算法收敛条件,即误差小于给定阈值,当前更新结果为算法执行的最终结果;否则,更新缺失数据项为当前求得的最优值,重新进行迭代求解过程。
本发明提供了一种结合局部信息的不完整数据相似性刻画方法,该方法采用聚类过程和缺失项优化过程的交替迭代,得到数据缺失项的一个最优估计值,并利用k近邻填补算法对数据间局部信息的相似性进行缺失项估计,将其估计值与最优估计值加权求和,提高了填补值的准确性。
四、附图说明
附图1结合局部信息的不完整数据相似性刻画方法流程图
附图2基于DC规划的核模糊C均值聚类算法流程图
五、具体实施方式
下面将结合附图对本发明的技术内容作进一步说明。
附图1展示了本发明中结合局部信息的不完整数据相似性刻画方法的流程图,包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610838409.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分类器训练方法及装置
- 下一篇:一种质谱数据分析方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置