[发明专利]一种加权多视角无监督属性选择方法在审
申请号: | 201910636201.3 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110334777A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 朱晓峰;杜婷婷;张乐园;郑威;李佳烨;张师超 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 覃永峰 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类模型 属性选择 多视角 无监督 降维 加权 输入数据集 数据预处理 聚类结果 目标函数 权重矩阵 最大数据 解释性 求解 构建 聚类 排序 输出 改进 | ||
1.一种加权多视角无监督属性选择方法,其特征在于,具体步骤如下:
(一)输入数据集,将需要处理的数据Data按照样本×属性的维度做成矩阵D;
(二)使用Z-score方法对数据预处理,把生成的矩阵D对于每一个属性di使用Z-score方法即进行处理,其中μi为di的平均值,δi为di的标准差,从而得到标准化之后的矩阵X;
(三)求解出属性的权重矩阵并排序,将得到的矩阵X构建目标函数;
(四)选取最大数据所对应属性实现降维,选取出排名靠前的属性,即筛除掉排名靠后的属性从而对样本数据X实现降维处理得到数据矩阵X1;
(五)用降维后的数据集使用K-means方法训练出聚类模型,对进行属性选择之后得到的降维数据矩阵X1使用当前流行的K-means方法训练出聚类模型;
(六)对训练出的聚类模型进行聚类,将要进行聚类的数据矩阵X1使用上一步得到的聚类模型进行聚类处理;
(七)输出聚类结果,聚类完成之后会得到各样本之间的相似性关系、各类别中心等数据,此时根据样本之间的相似性关系以及类别中心信息将各样本分别聚入不同的类别,从而得到数据集X的聚类结果。
2.根据权利要求1所述的加权多视角无监督属性选择方法,其特征在于,步骤(三)具体分步骤如下:
(1)传统的图学习的无监督属性选择算法的目标函数可以表示为:
其中,W∈Rd×m是投影矩阵,xi是第i个样本数据,d和m分别是原始维度和投影后的维度,|| ||是范数(norm)的意思;右上角的T代表着矩阵转置的意思,用S来保持样本之间的相似性,si是S中列向量,si,j是亲和矩阵S∈Rn×n的元素,1是全1的列向量,I是单位矩阵,α和γ是正则化参数,使用l2,1-norm实现W行稀疏;
(2)利用自表达的方式代替传统方法来构造亲和度矩阵,并以目标函数来实现上述目标:
其中,θ是特征权重矩阵,θi是θ中对角线元素,是距xi最近的k个样本的集合;
(3)进一步扩展目标函数,将其应用于多视角数据;
用表示v个视角的特征矩阵,扩展公式(2)式,得出动态样本空间结构的多视角无监督属性选择算法DSS-UFS:
其中,αv是第v个视角的可调参数,W(v)是第v个视角的投影矩阵,X(v)是第v个视角的样本矩阵,Θ(v)是第v个视角的对角属性权重矩阵,dv是第v个视角的属性个数,是一个对角矩阵并且设使那么对于第v个视角,公式(3)重写为:
如果固定和αv,那么可得到θ(v)的最优解通过解决如下问题:
通过均值不等式得出在公式(5)取得最小时:
从而可以得到公式(3)的等价形式:
记公式(7)可以等价为:
同理由均值不等式可以得出
从而得到:
即证明了公式(3)和公式(10)等价;
因此求解公式(3)可以等价为求解如下问题:
接着对目标函数(11)进行如下优化:
1)先固定S优化W,目标函数可以重写为:
s.t.,W(v)TW(v)=I
这里
其中tr()是矩阵的迹,
记M(v)=X(v)(I-S)(I-S)TX(v)T+γQ(v),即有:
s.t.,W(v)TW(v)=I
对每个视角单独求解,即W(v)的解为M(v)的特征值按升序排列之后的前c个特征向量所构成的矩阵;
2)固定优化S
s.t.,si,.T1=1,si,i=0,
令W(v)TX(v)=A记Bi为A去掉第i列所得到的矩阵;T为S去掉对角线元素之后的的矩阵,Ti为S去掉对角线元素之后的第i列向量;即有:
s.t.,TiT1=1,
使用拉格朗日乘子法有:
令
即可根据加速近端梯度下降方法得到:
从而有:
其中,先对从大到小排序重新构造得到向量μ,然后令从而有
对Ti迭代近似求解即可得出矩阵T,从而对T矩阵按照之前所述由S变为T的方法还原成矩阵S即可求解出S;
目标函数(3)中X(v)为训练集,W(v)为映射矩阵,S是每个样本对于周围样本的线性表示矩阵,Θ(v)是第v个视角对角线上元素为的对角矩阵;由于公式(3)、公式(11)两式等价,从公式(11)即可以看出优化出公式(11)中W(v)矩阵即可得到属性权重矩阵Θ(v);公式(11)中第一项的目标是在对训练集X通过W映射之后的新数据集用S进行自表征的误差最小;第二项是对W矩阵进行行稀疏从而可以对各属性进行排序打分;限制条件W(v)TW(v)=I是限制矩阵W中数值过大或过小;限制条件si,.T1=1,si,i=0是令每一个样本其对于其他样本的线性表示的权重值和为1;γ是可调参数;对此目标函数(11)进行优化求解得到的W是X的映射矩阵,进而求出属性权重系数矩阵W(v);
通过公式(3)求解出属性权重矩阵θ(v);通过得到的属性权重矩阵中对角线元素的数值比较其大小,对其所对应的属性从大到小进行排序。
3.根据权利要求1所述的加权多视角无监督属性选择方法,其特征在于,步骤(五)中,所述K-means模型将各个聚类子集内所有的数据样本的均值作为该聚类的代表点,通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类类内紧凑,类间独立,具体的实现分步骤为:
(1)选定某种距离作为数据样本间的相似性度量,一般最常使用的是欧氏距离,欧氏距离公式如下:
其中d(xi,xj)是xi和xj之间的距离。
(2)选择评价聚类性能的准则函数;K-means算法使用误差平方和准则函数来评价聚类性能;给定数据集X,其中只包含描述属性不包含类别属性;假设X包含k个聚子集X1,X2,...,XK;各个聚类子集中的样本数量分别为n1,n2,...,nk;各个聚类子集的均值代表点即聚类中心分别为m1,m2,...,mk;则误差平方和准则函数公式为:
其中p是样本数据。
(3)计算相似度;具体来说,首先将所有的对象随机分配到k个非空的簇中;计算每个簇的平均值并用该平均值代表相应的簇;根据每个对象与各个簇中心的距离,分配给最近的簇;然后重新计算每个簇的平均值;将这个过程不断重复直到满足误差平方和准则函数才停止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910636201.3/1.html,转载请声明来源钻瓜专利网。