[发明专利]一种加权多视角无监督属性选择方法在审

申请号：	201910636201.3	申请日：	2019-07-15
公开（公告）号：	CN110334777A	公开（公告）日：	2019-10-15
发明（设计）人：	朱晓峰;杜婷婷;张乐园;郑威;李佳烨;张师超	申请（专利权）人：	广西师范大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	覃永峰
地址：	541004 广西壮***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	聚类模型属性选择多视角无监督降维加权输入数据集数据预处理聚类结果目标函数权重矩阵最大数据解释性求解构建聚类排序输出改进
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种加权多视角无监督属性选择方法，其特征在于，具体步骤如下：

(一)输入数据集，将需要处理的数据Data按照样本×属性的维度做成矩阵D；

(二)使用Z-score方法对数据预处理，把生成的矩阵D对于每一个属性d_i使用Z-score方法即进行处理，其中μ_i为d_i的平均值，δ_i为d_i的标准差,从而得到标准化之后的矩阵X；

(三)求解出属性的权重矩阵并排序，将得到的矩阵X构建目标函数；

(四)选取最大数据所对应属性实现降维，选取出排名靠前的属性，即筛除掉排名靠后的属性从而对样本数据X实现降维处理得到数据矩阵X₁；

(五)用降维后的数据集使用K-means方法训练出聚类模型，对进行属性选择之后得到的降维数据矩阵X₁使用当前流行的K-means方法训练出聚类模型；

(六)对训练出的聚类模型进行聚类，将要进行聚类的数据矩阵X1使用上一步得到的聚类模型进行聚类处理；

(七)输出聚类结果，聚类完成之后会得到各样本之间的相似性关系、各类别中心等数据，此时根据样本之间的相似性关系以及类别中心信息将各样本分别聚入不同的类别，从而得到数据集X的聚类结果。

2.根据权利要求1所述的加权多视角无监督属性选择方法，其特征在于，步骤(三)具体分步骤如下：

(1)传统的图学习的无监督属性选择算法的目标函数可以表示为：

其中，W∈R^d×m是投影矩阵，x_i是第i个样本数据，d和m分别是原始维度和投影后的维度，|| ||是范数(norm)的意思；右上角的T代表着矩阵转置的意思，用S来保持样本之间的相似性，s_i是S中列向量，s_i,j是亲和矩阵S∈R^n×n的元素，1是全1的列向量，I是单位矩阵，α和γ是正则化参数，使用l_2,1-norm实现W行稀疏；

(2)利用自表达的方式代替传统方法来构造亲和度矩阵，并以目标函数来实现上述目标：

其中，θ是特征权重矩阵，θ_i是θ中对角线元素，是距x_i最近的k个样本的集合；

(3)进一步扩展目标函数，将其应用于多视角数据；

用表示v个视角的特征矩阵，扩展公式(2)式，得出动态样本空间结构的多视角无监督属性选择算法DSS-UFS：

其中，α_v是第v个视角的可调参数，W^(v)是第v个视角的投影矩阵，X^(v)是第v个视角的样本矩阵，Θ^(v)是第v个视角的对角属性权重矩阵，d_v是第v个视角的属性个数，是一个对角矩阵并且设使那么对于第v个视角，公式(3)重写为：

如果固定和α_v，那么可得到θ^(v)的最优解通过解决如下问题：

通过均值不等式得出在公式(5)取得最小时：

从而可以得到公式(3)的等价形式：

记公式(7)可以等价为：

同理由均值不等式可以得出

从而得到：

即证明了公式(3)和公式(10)等价；

因此求解公式(3)可以等价为求解如下问题：

接着对目标函数(11)进行如下优化：

1)先固定S优化W，目标函数可以重写为：

s.t.,W^(v)TW^(v)＝I

这里

其中tr()是矩阵的迹，

记M^(v)＝X^(v)(I-S)(I-S)^TX^(v)T+γQ^(v)，即有：

s.t.,W^(v)TW^(v)＝I

对每个视角单独求解，即W^(v)的解为M^(v)的特征值按升序排列之后的前c个特征向量所构成的矩阵；

2)固定优化S

s.t.,s_i,.^T1＝1,s_i,i＝0,

令W^(v)TX^(v)＝A记B_i为A去掉第i列所得到的矩阵；T为S去掉对角线元素之后的的矩阵，T_i为S去掉对角线元素之后的第i列向量；即有：

s.t.,T_i^T1＝1,

使用拉格朗日乘子法有：

令

即可根据加速近端梯度下降方法得到：

从而有：

其中，先对从大到小排序重新构造得到向量μ，然后令从而有

对T_i迭代近似求解即可得出矩阵T，从而对T矩阵按照之前所述由S变为T的方法还原成矩阵S即可求解出S；

目标函数(3)中X^(v)为训练集，W^(v)为映射矩阵，S是每个样本对于周围样本的线性表示矩阵，Θ^(v)是第v个视角对角线上元素为的对角矩阵；由于公式(3)、公式(11)两式等价，从公式(11)即可以看出优化出公式(11)中W^(v)矩阵即可得到属性权重矩阵Θ^(v)；公式(11)中第一项的目标是在对训练集X通过W映射之后的新数据集用S进行自表征的误差最小；第二项是对W矩阵进行行稀疏从而可以对各属性进行排序打分；限制条件W^(v)TW^(v)＝I是限制矩阵W中数值过大或过小；限制条件s_i,.^T1＝1,s_i,i＝0是令每一个样本其对于其他样本的线性表示的权重值和为1；γ是可调参数；对此目标函数(11)进行优化求解得到的W是X的映射矩阵，进而求出属性权重系数矩阵W^(v)；

通过公式(3)求解出属性权重矩阵θ^(v)；通过得到的属性权重矩阵中对角线元素的数值比较其大小，对其所对应的属性从大到小进行排序。

3.根据权利要求1所述的加权多视角无监督属性选择方法，其特征在于，步骤(五)中，所述K-means模型将各个聚类子集内所有的数据样本的均值作为该聚类的代表点，通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而使生成的每个聚类类内紧凑，类间独立，具体的实现分步骤为：

(1)选定某种距离作为数据样本间的相似性度量，一般最常使用的是欧氏距离，欧氏距离公式如下：

其中d(x_i,x_j)是x_i和x_j之间的距离。

(2)选择评价聚类性能的准则函数；K-means算法使用误差平方和准则函数来评价聚类性能；给定数据集X，其中只包含描述属性不包含类别属性；假设X包含k个聚子集X₁,X₂,...,X_K；各个聚类子集中的样本数量分别为n₁,n₂,...,n_k；各个聚类子集的均值代表点即聚类中心分别为m₁,m₂,...,m_k；则误差平方和准则函数公式为：

其中p是样本数据。

(3)计算相似度；具体来说，首先将所有的对象随机分配到k个非空的簇中；计算每个簇的平均值并用该平均值代表相应的簇；根据每个对象与各个簇中心的距离，分配给最近的簇；然后重新计算每个簇的平均值；将这个过程不断重复直到满足误差平方和准则函数才停止。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广西师范大学，未经广西师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910636201.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于区域双三次插值技术的图像分类识别方法
下一篇：基于描述内容与图像内容特征的图像综合相似分析方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种加权多视角无监督属性选择方法在审

专利文献下载