[发明专利]基于奇异值分解SVD-Blondel相似度的同义词检测方法在审
申请号: | 202310008061.1 | 申请日: | 2023-01-04 |
公开(公告)号: | CN116187305A | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 陈丽娜;俞唯仁;袁龙 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F18/22 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 奇异 分解 svd blondel 相似 同义词 检测 方法 | ||
本发明公开了一种基于奇异值分解的SVD‑Blondel相似度的同义词检测方法,该方法包括以下步骤:步骤1,构造关联词典图G,词典中的每个单词是图中的顶点,如果v出现在u的定义中,从u到v有一条边;步骤2,给定单词节点w作为请求,构造一个邻域图Gsubgt;w/subgt;,Gsubgt;w/subgt;是G的子图,图中的顶点是由w指向的或者指向w的;步骤3,利用基于奇异值分解的SVD‑Blondel相似度计算出Gsubgt;w/subgt;中心顶点与词典图G的相似性分数;步骤4,获取具有最大的相似度分数的单词即w的同义词。与传统方法相比,本发明无需语料库,准确率高且计算速度快。
技术领域
本发明涉及同义词提取技术,特别是一种基于奇异值分解SVD_Blondel相似度的同义词检测方法。
背景技术
自然语言处理属于人工智能的一个分值,目前是最热门的研究之一,特别是在信息时代,很多实际应用都需要词汇语义相似度的度量,比如机器翻译、信息检索、问答系统、搜索系统等。比如在购物APP上输入需要搜索的商品关键词“耳机”,系统能够自动显示“蓝牙耳机”、“头戴式耳机”、“耳麦”、“音响”等多种类似的商品。这一类应用在使用时要能够即时且准确地提取近义词。所以应用有效的算法是非常有必要的。
同义词提取方法大致可以分为两类,一种研究领域是基于分布相似性假设,它指出了同义词共享相似的上下文信息。从语料库中提取每个被认为重要的词的上下文特征的统计信息,然后用向量表示每个词。选择一个相似度度量,比如余弦相似性,应用于查询词对和同义候选词对,生成按相似度得分排序的同义词选词列表。另一种是基于图结构的相似度模型,通过计算基础图上节点之间的相似度来评估单词之间的相似性,基础图中节点表示单词,边用来表示单词之间的语义联系。
目前存在许多基于链接相似度的模型,其中在语义提取上应用较为广泛的是Blondel模型,该模型的核心思想是“如果两个图的节点相似,那么这两个节点的邻居节点也相似”。其公式的矩阵形式可以表示为SK+1=BSKAT+BTSKA,其中S表示相似度矩阵,BA表示两图的邻接矩阵。但在实际应用场景中会发现,Blondel模型在相似度检索中往往无法给出令人满意的结果。这是因为Blondel模型是对称的,两个节点的奇数次迭代的相似度会被忽略。导致同义词提取的准确性不高。
另一方面,词典中单词的数量相当巨大,想要快速的进行同义词提取任务,对于模型的计算速度也存在较高的要求,Blondel模型向量迭代的计算方式,时空复杂度很高,当图结构的数据规模很大时,计算的效率低下,并不能在有效的时间内完成同义词提取的任务,所以Blondel模型只适用于图节点较少的场景。
发明内容
本发明的目的在于提供一种基于奇异值分解SVD Blondel相似度的同义词检测方法,能够在有效的时间内提取出给定单词的同义词,同时准确度较高,满足查询的要求。
实现本发明目的的技术解决方案为:第一方面,本发明提供一种基于奇异值分解SVD_Blondel相似度的同义词检测方法,包括以下步骤:
步骤1,构造关联词典图G,词典中的每个单词是图中的顶点,如果v出现在u的定义中,从u到v有一条边;
步骤2,给定单词节点w作为请求,构造一个邻域图Gw,Gw是G的子图;
步骤3,利用图相似度方法计算出Gw中心顶点与词典图G的相似性分数;
步骤4,获取具有最大的相似度分数的单词即w的同义词。
进一步的,步骤2中,给定单词节点w作为请求,构造一个邻域图Gw,Gw是G的子图,图中的顶点是由w指向的或者指向w的;所述步骤2具体包括如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310008061.1/2.html,转载请声明来源钻瓜专利网。