[发明专利]一种挖掘数据间相似度的有监督的局部投影方法在审
申请号: | 202010356261.2 | 申请日: | 2020-04-29 |
公开(公告)号: | CN111522954A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 朱晓峰;张北贤;陈林君;詹猛猛;张乐园;张师超 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/16;G06F40/194;G06K9/62;G06N3/04 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 挖掘 数据 相似 监督 局部 投影 方法 | ||
1.一种挖掘数据间相似度的有监督的局部投影方法,其特征在于,包括如下步骤:
1)获取数据及提出数学模型:获取样本数据X∈Rn×d、标签数据Y∈Rn×d以及每个样本的最大近邻数k,其中,X∈Rn×d是有n个样本,每个样本有d个特征的矩阵;Y∈Rn×c是one-hot矩阵,表示有n个样本的标签,标签的种类数为c;
然后提出数学模型(1):
其中,W∈Rd×c是大小为d×c的投影矩阵;S∈Rn×n是相似矩阵,Si∈R1×n表示S中的第i行的数据,初始化相似矩阵S的元素全为0;λ1为可常数系数,初始化为λ1=1;I为单位矩阵;L=D-S∈Rn×n为相似矩阵S的Laplacian矩阵,D∈Rn×n为相似矩阵S的度矩阵,rank(L)表示对L求秩,||S||F表示计算S的Frobenius范数;
2)初始化:计算样本数据X中的每个样本两两之间的欧式距离,得到大小为n×n的矩阵的第i行第j列元素是即然后计算中每一行的最小的k个元素的索引,得到大小为n×k的k邻索引矩阵随机初始化大小为d×c的投影矩阵W∈Rd×c,满足W和W的转置矩阵是正交的,即WWT=I,其中I是单位矩阵;
3)更新:根据步骤2)中的k邻索引矩阵和对步骤1)中的相似矩阵S进行更新,记pos即为样本数据X的第i个样本的第j个近邻样本在样本数据X中的索引,将S的第i行第pos列的元素更新为的第i行第pos列元素的值,即
4)转化:将相似矩阵S转化为对称矩阵其中,Slog=(ST>S)∈Rn×n是ST和S逐个元素比较大小后得到的二元矩阵,且Slog的元素非0即1,然后保持数学模型(1)中的S不变,使将数学模型(1)化简为:
5)计算中间矩阵变量的最大特征值α:计算矩阵的Laplacian矩阵并使A=XTX+XTLX∈Rd×d,B=XTY∈Rd×d,其中A是中间矩阵变量,是的度矩阵,为了保证A是实对称矩阵,计算A的最大特征值α,并使
6)计算loss1的值:计算M是中间矩阵变量,并对M进行奇异值分解,得到U∈Rd×m,其中U和V都是酉矩阵,更新然后计算loss1=Tr(WTAW-2WTB),若loss1的值不能够收敛,即loss1没有趋近于一个稳定的数值,则重复执行步骤6),如果反复执行步骤6)的次数过高,则指定反复执行步骤6)的最大次数而不必等到loss1的值完全收敛,当loss1的值完全收敛或者已经达到了反复执行步骤6)的最大次数,则进入下一步骤;
7)简化数学模型:根据论文2014CAN中的式子33计算出参数λ1,其中X′=XW对应于该论文式子33中的X,并保持数学模型(1)中的W不变,将数学模型(1)化简为:
8)投影:使用步骤6)得到的投影矩阵W对样本数据X进行投影,即X′=XW,得到投影后的样本矩阵X′,并计算出X′中每两个样本之间的欧氏距离得到X′的距离矩阵Vx∈Rn×n,即对于X′第i个样本XiW和第j个样本XjW,计算
9)计算loss2的值:F∈Rn×c是由的c个最小特征值对应的c个特征向量组成矩阵,F的每一列是一个特征向量,更新F,先计算F的每一行两两之间的欧式距离得到Vf∈Rn×n,其中Fi∈R1×c是F的第i行的数据,根据步骤8)中的Vx∈Rn×n计算得到V∈Rn×n,根据得到的Si更新相似矩阵S的第i行,其中Vi∈R1×n,Vi的第j个元素为其中Xj是Xi的第j个最近邻样本,Xi是样本矩阵X中的第i行;λ2是满足λ2/λ1=1e4的实数,然后计算:
若loss2的值不能够收敛,即loss2没有趋近于一个稳定的数值,则重复执行步骤9),如果反复执行步骤9)的次数过高,则指定反复执行步骤9)的最大次数而不必等到loss2的值完全收敛,当loss2的值完全收敛或者已经达到了反复执行步骤9)的最大次数,则进入下一步骤;
10)计算数学模型(1)的loss值:
如果此时loss的值不能够收敛,即loss没有趋近于一个稳定的数值,则重复执行步骤3)-步骤9),如果反复执行步骤3)-步骤9)的次数过高,则指定反复执行步骤3)-步骤9)的最大次数而不必等到loss的值完全收敛,当loss的值完全收敛或者已经达到了反复执行步骤3)-步骤9)的最大次数,则结束,输出相似矩阵S∈Rn×n和投影矩阵W∈Rd×c。
2.根据权利要求1所述的挖掘数据间相似度的有监督的局部投影方法,其特征在于,所述当步骤1)-步骤10)作为整体框架时,优化数学模型(1),步骤3)-步骤6)作为子模块1,优化投影矩阵W,步骤7)-步骤9)作为子模块2,优化相似矩阵S,其中,
优化数学模型(1)的伪代码描述如下:
Input:X∈Rn×d,Y∈Rn×c,标签类别数c,每个样本的领域数量c;
Initialize:1、初始化相似矩阵S=0∈Rn×n,其中0是元素全为0的矩阵;
2、计算得到计算中每一行的最小的k个元素的索引,得到大小为n×k的k邻索引矩阵记pos即为样本数据X的第i个样本的第j个近邻样本在样本数据X中的索引,更新
3、随机初始化W∈Rd×c,使得WWT=I;
do{
1、固定S,优化W:计算令调用子模块1,更新W;
2、根据论文2014CAN的式子33计算出参数λ1,λ2是满足λ2≥λ1×1e4的任意实数;
3、固定W,优化S:调用子模块2;
4、计算
}while loss converge
Output:S∈Rn×n;
优化投影矩阵W的伪代码描述如下:
Input:L∈Rn×n,X∈Rn×d,Y∈Rn×c;
Initialize:
1、计算A=XTX+XTLX∈Rd×d,B=XTY∈Rd×d;
2、计算A的最大特征值α,并使
do{
1、计算
2、对M进行奇异值分解,得到U∈Rd×m,VT∈Rm×c;
3、更新W=UVT;
4、计算loss1=Tr(WTAW-2WTB);
}while loss1 loss converge
Output:W∈Rd×c;
优化相似矩阵S的伪代码描述如下:
Input:W∈Rd×c,X∈Rn×d,S∈Rn×n,标签类别数c,λ1,λ2;
Initialize:
1、计算X′=XW,得到Vx∈Rn×n,
do{
2、更新F,F∈Rn×c由的c个最小特征值对应的c个特征向量组成,F的每一列是一个特征向量;
3、计算F的每一行两两之间的欧式距离得到Vf∈Rn×n,
4、计算得到V∈Rn×n;
5、根据得到的Si更新相似矩阵S的第i行,其中Vi∈R1×n,Vi的第j个元素为这里的Xi是样本矩阵X中的第i行,Xj是Xi的第j个最近邻样本,根据可以确定Xj;
6、计算
}while loss2 converge
Output:S∈Rn×n。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010356261.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置