[发明专利]一种挖掘数据间相似度的有监督的局部投影方法在审

专利信息
申请号: 202010356261.2 申请日: 2020-04-29
公开(公告)号: CN111522954A 公开(公告)日: 2020-08-11
发明(设计)人: 朱晓峰;张北贤;陈林君;詹猛猛;张乐园;张师超 申请(专利权)人: 广西师范大学
主分类号: G06F16/35 分类号: G06F16/35;G06F17/16;G06F40/194;G06K9/62;G06N3/04
代理公司: 桂林市华杰专利商标事务所有限责任公司 45112 代理人: 杨雪梅
地址: 541004 广西壮*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 挖掘 数据 相似 监督 局部 投影 方法
【权利要求书】:

1.一种挖掘数据间相似度的有监督的局部投影方法,其特征在于,包括如下步骤:

1)获取数据及提出数学模型:获取样本数据X∈Rn×d、标签数据Y∈Rn×d以及每个样本的最大近邻数k,其中,X∈Rn×d是有n个样本,每个样本有d个特征的矩阵;Y∈Rn×c是one-hot矩阵,表示有n个样本的标签,标签的种类数为c;

然后提出数学模型(1):

其中,W∈Rd×c是大小为d×c的投影矩阵;S∈Rn×n是相似矩阵,Si∈R1×n表示S中的第i行的数据,初始化相似矩阵S的元素全为0;λ1为可常数系数,初始化为λ1=1;I为单位矩阵;L=D-S∈Rn×n为相似矩阵S的Laplacian矩阵,D∈Rn×n为相似矩阵S的度矩阵,rank(L)表示对L求秩,||S||F表示计算S的Frobenius范数;

2)初始化:计算样本数据X中的每个样本两两之间的欧式距离,得到大小为n×n的矩阵的第i行第j列元素是即然后计算中每一行的最小的k个元素的索引,得到大小为n×k的k邻索引矩阵随机初始化大小为d×c的投影矩阵W∈Rd×c,满足W和W的转置矩阵是正交的,即WWT=I,其中I是单位矩阵;

3)更新:根据步骤2)中的k邻索引矩阵和对步骤1)中的相似矩阵S进行更新,记pos即为样本数据X的第i个样本的第j个近邻样本在样本数据X中的索引,将S的第i行第pos列的元素更新为的第i行第pos列元素的值,即

4)转化:将相似矩阵S转化为对称矩阵其中,Slog=(ST>S)∈Rn×n是ST和S逐个元素比较大小后得到的二元矩阵,且Slog的元素非0即1,然后保持数学模型(1)中的S不变,使将数学模型(1)化简为:

5)计算中间矩阵变量的最大特征值α:计算矩阵的Laplacian矩阵并使A=XTX+XTLX∈Rd×d,B=XTY∈Rd×d,其中A是中间矩阵变量,是的度矩阵,为了保证A是实对称矩阵,计算A的最大特征值α,并使

6)计算loss1的值:计算M是中间矩阵变量,并对M进行奇异值分解,得到U∈Rd×m,其中U和V都是酉矩阵,更新然后计算loss1=Tr(WTAW-2WTB),若loss1的值不能够收敛,即loss1没有趋近于一个稳定的数值,则重复执行步骤6),如果反复执行步骤6)的次数过高,则指定反复执行步骤6)的最大次数而不必等到loss1的值完全收敛,当loss1的值完全收敛或者已经达到了反复执行步骤6)的最大次数,则进入下一步骤;

7)简化数学模型:根据论文2014CAN中的式子33计算出参数λ1,其中X′=XW对应于该论文式子33中的X,并保持数学模型(1)中的W不变,将数学模型(1)化简为:

8)投影:使用步骤6)得到的投影矩阵W对样本数据X进行投影,即X′=XW,得到投影后的样本矩阵X′,并计算出X′中每两个样本之间的欧氏距离得到X′的距离矩阵Vx∈Rn×n,即对于X′第i个样本XiW和第j个样本XjW,计算

9)计算loss2的值:F∈Rn×c是由的c个最小特征值对应的c个特征向量组成矩阵,F的每一列是一个特征向量,更新F,先计算F的每一行两两之间的欧式距离得到Vf∈Rn×n,其中Fi∈R1×c是F的第i行的数据,根据步骤8)中的Vx∈Rn×n计算得到V∈Rn×n,根据得到的Si更新相似矩阵S的第i行,其中Vi∈R1×n,Vi的第j个元素为其中Xj是Xi的第j个最近邻样本,Xi是样本矩阵X中的第i行;λ2是满足λ21=1e4的实数,然后计算:

若loss2的值不能够收敛,即loss2没有趋近于一个稳定的数值,则重复执行步骤9),如果反复执行步骤9)的次数过高,则指定反复执行步骤9)的最大次数而不必等到loss2的值完全收敛,当loss2的值完全收敛或者已经达到了反复执行步骤9)的最大次数,则进入下一步骤;

10)计算数学模型(1)的loss值:

如果此时loss的值不能够收敛,即loss没有趋近于一个稳定的数值,则重复执行步骤3)-步骤9),如果反复执行步骤3)-步骤9)的次数过高,则指定反复执行步骤3)-步骤9)的最大次数而不必等到loss的值完全收敛,当loss的值完全收敛或者已经达到了反复执行步骤3)-步骤9)的最大次数,则结束,输出相似矩阵S∈Rn×n和投影矩阵W∈Rd×c

2.根据权利要求1所述的挖掘数据间相似度的有监督的局部投影方法,其特征在于,所述当步骤1)-步骤10)作为整体框架时,优化数学模型(1),步骤3)-步骤6)作为子模块1,优化投影矩阵W,步骤7)-步骤9)作为子模块2,优化相似矩阵S,其中,

优化数学模型(1)的伪代码描述如下:

Input:X∈Rn×d,Y∈Rn×c,标签类别数c,每个样本的领域数量c;

Initialize:1、初始化相似矩阵S=0∈Rn×n,其中0是元素全为0的矩阵;

2、计算得到计算中每一行的最小的k个元素的索引,得到大小为n×k的k邻索引矩阵记pos即为样本数据X的第i个样本的第j个近邻样本在样本数据X中的索引,更新

3、随机初始化W∈Rd×c,使得WWT=I;

do{

1、固定S,优化W:计算令调用子模块1,更新W;

2、根据论文2014CAN的式子33计算出参数λ1,λ2是满足λ2≥λ1×1e4的任意实数;

3、固定W,优化S:调用子模块2;

4、计算

}while loss converge

Output:S∈Rn×n

优化投影矩阵W的伪代码描述如下:

Input:L∈Rn×n,X∈Rn×d,Y∈Rn×c

Initialize:

1、计算A=XTX+XTLX∈Rd×d,B=XTY∈Rd×d

2、计算A的最大特征值α,并使

do{

1、计算

2、对M进行奇异值分解,得到U∈Rd×m,VT∈Rm×c

3、更新W=UVT

4、计算loss1=Tr(WTAW-2WTB);

}while loss1 loss converge

Output:W∈Rd×c

优化相似矩阵S的伪代码描述如下:

Input:W∈Rd×c,X∈Rn×d,S∈Rn×n,标签类别数c,λ1,λ2

Initialize:

1、计算X′=XW,得到Vx∈Rn×n

do{

2、更新F,F∈Rn×c由的c个最小特征值对应的c个特征向量组成,F的每一列是一个特征向量;

3、计算F的每一行两两之间的欧式距离得到Vf∈Rn×n

4、计算得到V∈Rn×n

5、根据得到的Si更新相似矩阵S的第i行,其中Vi∈R1×n,Vi的第j个元素为这里的Xi是样本矩阵X中的第i行,Xj是Xi的第j个最近邻样本,根据可以确定Xj

6、计算

}while loss2 converge

Output:S∈Rn×n

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010356261.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top