[发明专利]基于奇异值分解SVD-Blondel相似度的同义词检测方法在审

专利信息
申请号: 202310008061.1 申请日: 2023-01-04
公开(公告)号: CN116187305A 公开(公告)日: 2023-05-30
发明(设计)人: 陈丽娜;俞唯仁;袁龙 申请(专利权)人: 南京理工大学
主分类号: G06F40/247 分类号: G06F40/247;G06F18/22
代理公司: 南京理工大学专利中心 32203 代理人: 陈鹏
地址: 210094 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 奇异 分解 svd blondel 相似 同义词 检测 方法
【说明书】:

发明公开了一种基于奇异值分解的SVD‑Blondel相似度的同义词检测方法,该方法包括以下步骤:步骤1,构造关联词典图G,词典中的每个单词是图中的顶点,如果v出现在u的定义中,从u到v有一条边;步骤2,给定单词节点w作为请求,构造一个邻域图Gsubgt;w/subgt;,Gsubgt;w/subgt;是G的子图,图中的顶点是由w指向的或者指向w的;步骤3,利用基于奇异值分解的SVD‑Blondel相似度计算出Gsubgt;w/subgt;中心顶点与词典图G的相似性分数;步骤4,获取具有最大的相似度分数的单词即w的同义词。与传统方法相比,本发明无需语料库,准确率高且计算速度快。

技术领域

本发明涉及同义词提取技术,特别是一种基于奇异值分解SVD_Blondel相似度的同义词检测方法。

背景技术

自然语言处理属于人工智能的一个分值,目前是最热门的研究之一,特别是在信息时代,很多实际应用都需要词汇语义相似度的度量,比如机器翻译、信息检索、问答系统、搜索系统等。比如在购物APP上输入需要搜索的商品关键词“耳机”,系统能够自动显示“蓝牙耳机”、“头戴式耳机”、“耳麦”、“音响”等多种类似的商品。这一类应用在使用时要能够即时且准确地提取近义词。所以应用有效的算法是非常有必要的。

同义词提取方法大致可以分为两类,一种研究领域是基于分布相似性假设,它指出了同义词共享相似的上下文信息。从语料库中提取每个被认为重要的词的上下文特征的统计信息,然后用向量表示每个词。选择一个相似度度量,比如余弦相似性,应用于查询词对和同义候选词对,生成按相似度得分排序的同义词选词列表。另一种是基于图结构的相似度模型,通过计算基础图上节点之间的相似度来评估单词之间的相似性,基础图中节点表示单词,边用来表示单词之间的语义联系。

目前存在许多基于链接相似度的模型,其中在语义提取上应用较为广泛的是Blondel模型,该模型的核心思想是“如果两个图的节点相似,那么这两个节点的邻居节点也相似”。其公式的矩阵形式可以表示为SK+1=BSKAT+BTSKA,其中S表示相似度矩阵,BA表示两图的邻接矩阵。但在实际应用场景中会发现,Blondel模型在相似度检索中往往无法给出令人满意的结果。这是因为Blondel模型是对称的,两个节点的奇数次迭代的相似度会被忽略。导致同义词提取的准确性不高。

另一方面,词典中单词的数量相当巨大,想要快速的进行同义词提取任务,对于模型的计算速度也存在较高的要求,Blondel模型向量迭代的计算方式,时空复杂度很高,当图结构的数据规模很大时,计算的效率低下,并不能在有效的时间内完成同义词提取的任务,所以Blondel模型只适用于图节点较少的场景。

发明内容

本发明的目的在于提供一种基于奇异值分解SVD Blondel相似度的同义词检测方法,能够在有效的时间内提取出给定单词的同义词,同时准确度较高,满足查询的要求。

实现本发明目的的技术解决方案为:第一方面,本发明提供一种基于奇异值分解SVD_Blondel相似度的同义词检测方法,包括以下步骤:

步骤1,构造关联词典图G,词典中的每个单词是图中的顶点,如果v出现在u的定义中,从u到v有一条边;

步骤2,给定单词节点w作为请求,构造一个邻域图Gw,Gw是G的子图;

步骤3,利用图相似度方法计算出Gw中心顶点与词典图G的相似性分数;

步骤4,获取具有最大的相似度分数的单词即w的同义词。

进一步的,步骤2中,给定单词节点w作为请求,构造一个邻域图Gw,Gw是G的子图,图中的顶点是由w指向的或者指向w的;所述步骤2具体包括如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310008061.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top