[发明专利]基于奇异值分解SVD-Blondel相似度的同义词检测方法在审
申请号: | 202310008061.1 | 申请日: | 2023-01-04 |
公开(公告)号: | CN116187305A | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 陈丽娜;俞唯仁;袁龙 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F18/22 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 奇异 分解 svd blondel 相似 同义词 检测 方法 | ||
1.一种基于奇异值分解SVD-Blondel相似度的同义词检测方法,其特征在于,包括以下步骤:
步骤1,构造关联词典图G,词典中的每个单词是图中的顶点,如果v出现在u的定义中,从u到v有一条边;
步骤2,给定单词节点w作为请求,构造一个邻域图Gw,Gw是G的子图;
步骤3,利用图相似度方法计算出Gw中心顶点与词典图G的相似性分数;
步骤4,获取具有最大的相似度分数的单词即w的同义词。
2.根据权利要求1所述的基于奇异值分解SVD-Blondel算法的同义词检测方法,其特征在于,步骤2具体包括如下步骤:
步骤201,输入一个请求的单词,在词典中查找请求单词在其他单词中是否有定义或者其他单词在请求单词中是否有定义,构造出Gw;
步骤202,对于结构图包括权威分数,枢纽分数,中心分数,得到中心节点的相似度分数,其中给定节点即中心节点,假设长度为3的节点,a指向b,b指向c,那么b即中心节点,b的中心分数为a的分数和c的分数之和。
3.根据权利要求2所述的基于奇异值分解SVD_Blondel相似度的近义词检测方法,其特征在于,步骤3具体包括如下步骤:
步骤301,基于奇异值相似度的SVD-Blondel算法的计算如下:
通过步骤201得到的Gw;对于Gw的每个顶点i,将三个分数初始值设置为1;然后,根据以下相互强化的规则迭代更新分数:分数等于由i指向的所有顶点j的分数之和;等于i所指向的顶点的分数与指向i的顶点的分数的总和;等于指向i的顶点的分数的总和;经过每一步分数也同时更新并且进行正则化,如以下公式:
xk←xk/||xk||,k=1,2,3
当迭代收敛时,归一化向量分数x2将会与矩阵的归一化主特征向量相交,Mw表示Gw的领接矩阵;最终的同义词列表通过按照降序的方式对的主特征值的元素进行排名来获得;
步骤302,使用Blondel算法来计算两图中的节点相似度,Blondel模型的主要计算方式如下所示:
1)初始化Z0=1;
2)按照以下公式迭代偶数次,直到结果收敛
3)将最后迭代得到的结果赋值给结果S;
其中,S表示相似度矩阵,B,A表示两图的邻接矩阵,Zk表示正则化相似度矩阵,Z0是初始化的相似度矩阵,||.||F表示Fro范数;
步骤303,矩阵的奇异值分解的定义如下:
设非零实矩阵A∈Rm×n,可表示为三个矩阵的乘积形式:
A=U∑VT
其中U是m阶标准正交矩阵,V是n阶正交矩阵,∑是包括降序排列的非负对角线元素组成的m×n矩形对角矩阵;
针对矩阵降秩角度考虑S≤k(m,n)代替S(m,n);
S≤k(m,n)表示具有弗罗贝尼乌斯范式的m×n的矩阵集合,它们的秩均不大于k;令S≤k(m,n)=F2(UDVT),给出的F2(UDVT)矩阵形式和计算方法:
F2(UDVT)可以写做用矩阵形式表示:
(1)对UB和VA进行QR分解,QBRB=UB,QARA=VA;其中的QA有QATQA=I4k,当ij时:(RA)ij=0;那么
(2)对进行奇异值分解,计算出奇异值分解的因子;有(UR,DR,VR)∈R4k×4k×Diag(4k,4k,4k)×Rn×4k;
(3)将F2(UDVT)表示为:奇异值分解因子是(QBUR,DR,QAVR);
步骤304,利用步骤201和202得到Gw,即G1=(V1,E1),结构图G2=(V2,E2);扩展步骤301到任意的结构图;经过步骤303,迭代k次后得到G1的V1和G2的V2的相似度;即可计算出给定单词节点w和其余节点之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310008061.1/1.html,转载请声明来源钻瓜专利网。