[发明专利]基于比率对数的向量相似度计算方法及系统在审
申请号: | 202111276757.X | 申请日: | 2021-10-29 |
公开(公告)号: | CN114077866A | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 李德启;王棚;徐鑫朋;王金华;黄哲;张洁光;母瑛;陈杰;查星云;王一涵;王晓虹 | 申请(专利权)人: | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 201800 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 比率 对数 向量 相似 计算方法 系统 | ||
本发明提供了一种基于比率对数的向量相似度计算方法及系统,包括如下步骤:步骤S1:对实际问题的数据对象进行数学建模,得到对应的向量,基于比率对数计算多个向量的相似度;步骤S2:根据向量的相似度比较已经被表示为向量的数据对象的相似性。本发明RatioLog对向量具有较广泛的适应性,在词向量即分布式词嵌入的相似度计算效果上和余弦相似度的效果不相上下之外;普适性较好。
技术领域
本发明涉及数据处理的技术领域,具体地,涉及一种基于比率对数的向量相似度计算方法及系统。
背景技术
向量:在数学和物理学中,向量被定义为既有大小又有方向的量(与之相对的是“标量”,标量是只有大小没有方向的量)。向量有1个或多个维度,每个维度的值的数据类型通常是浮点型实数。向量通常用大写字母表示。下面是一个向量的示例:A=(0.3,1.2,5.4,0.9)。相似度:本文的相似度,指的是两个向量在多大程度上相似。直观上,两个向量如果在各个维度上的数值都比较接近,那么这2个向量比较相似。实际情况可能比这要复杂。余弦相似度:采用余弦公式(下文会有详细介绍)计算两个向量的相似度的结果,就是两个向量的余弦相似度。
常见的相似度计算方法:向量的相似度计算是很多搜索算法、比较算法的基础,应用较广。而向量的相似度计算方法,常用的有以下几种:1、余弦相似度(cosine);2、欧氏距离(Euclidean);3、曼哈顿距离(Manhattan distance);4、皮尔逊相关系数(PC:Pearsoncorrelation coefficient);5、斯皮尔曼(等级)相关系数(SRC:Spearman RankCorrelation);6、杰卡德相似系数(Jaccard距离);7、SimHash+汉明距离(HammingDistance)。先看欧式距离和曼哈顿距离。它们的计算结果主要体现的是个体数值的绝对差异,并不适合“相似程度”的计算。再看皮尔逊相关系数和斯皮尔曼(等级)相关系数。它们主要比较因变量和自变量间相关性如何,也不适合“相似程度”的计算。其次是杰卡德相似系数(Jaccard距离),它是用来衡量两个集合差异性的一种指标,而通常情况下,向量的元素并不被看作集合里的元素,向量本身也不被看作集合,所以Jaccard距离也不适合一般意义上的向量的相似度计算。然后看看SimHash+汉明距离,它具有特定的应用场景,就是文本的快速(但是不精准)的匹配,它直接的计算结果是比特序列之间的汉明距离,所以不具有广泛的适用性。余弦相似度:最后看看余弦相似度。余弦相似度确实是目前应用最为广泛的向量相似度计算方法,比如在自然语言处理任务中,经常要计算两个词的语义相似度,最常见的做法就是计算两个词的词向量的余弦相似度。余弦相似度公式用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫“余弦相似度”。余弦相似度计算公式如下:
其中,similaritity表示相似度;θ表示角度;A、B代表两个维度大小相同的向量,A·B表示向量的内积,即∑Ai×Bi;Ai和Bi分布表示向量A,B的每个维度的值;i表示向量维度的序号,例如Ai表示向量A的第i个序号;n表示向量维度的个数。而在上式等号最右边的式子的分母中,每个根号,和中间式子分母中的‖A‖和‖B‖的含义是一样的,分别是两个向量各自的模长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东计算技术研究所(中国电子科技集团公司第三十二研究所),未经华东计算技术研究所(中国电子科技集团公司第三十二研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111276757.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人T淋巴细胞的慢速冻存方法
- 下一篇:一种图像处理方法、装置和电子设备