[发明专利]一种词语相似度计算方法、装置以及存储介质有效
申请号: | 201910830820.6 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110633356B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 曾万贵;黄俊钧 | 申请(专利权)人: | 广州市巴图鲁信息科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/253 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;麦小婵 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词语 相似 计算方法 装置 以及 存储 介质 | ||
本发明公开了一种词语相似度计算方法,所述方法包括:获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度;利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度;所述第一词语的数量为若干个,将所述若干个第一词语与所述第二词语之间的相似度进行排序。本发明还公开了词语相似度计算装置、设备以及存储介质。采用本发明,可以从词语的交并比、长度、聚合度、前置匹配度等方面去评价其相似性,提高了计算词语之间相似度的准确性。
技术领域
本发明涉及相似度计算领域,特别是涉及一种词语相似度计算方法。
背景技术
词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用,它是自然语言的基础研究课题,正在被越来越多的研究人员所关注。
对于同一种东西,不同行业、不同地区可能会有多种叫法,举例来讲,由于汽配行业内部的沟通局限在小范围内,而且汽配行业的从业人员水平参差,在不同的小范围的沟通中,对同一个配件常常产生出许多不同的叫法。而从宏观来看,在不同的小范围或者小群体里,极有可能有一个叫法,被用来形容不同的配件,比如“前杠下护板”,可能在A市某些汽修厂与供应商之间,会用来表示“前保险杠下护板”这种配件,而在B市的某些汽修厂与供应商之间,则会用这个名称来称呼“发动机下护板(前)”这种配件。一个配件的标准的名称通常称为“主名”(如刚才说的“前保险杠下护板”、“发动机下护板(前)”),随之会衍生出的许多不同叫法(如刚才说的“前杠下护板”)通常称为“别名”。由于行业的这个特点,在进入互联网时代时,汽修厂等客户如果要在网上搜索购买配件时,往往用的都是“别名”,如何从“别名”搜索到客户想要的“主名”就是本发明所要解决的问题,按现有的搜索技术,用户搜索一个关键词,会按相关度进行匹配,可以匹配“别名”,也可以匹配“主名”,这其中有种情况,就是匹配“别名”时,可能这个“别名”会对应多个“主名”,而按业务需求,多个“主名“都需要展示出来供客户选择,这时,多个“主名”如何排序就成为一个难题。因为关键词匹配的都是同一个“别名”,所以相似度都是一样的,按现有技术,这多个”主名“的排序就会是随机的。因此,亟需一种能够实现对“别名”和“主名”之间进行了词语相似度的分析的词语相似度计算方法,使得相同“别名”的多个“主名”的搜索排序更优。
发明内容
为了解决上述问题,本发明的目的是提供一种词语相似度计算方法,可以从词语的交并比、长度、聚合度、前置匹配度等方面去评价其相似性,提高了计算词语之间相似度的准确性。
基于此,本发明提供了一种词语相似度计算方法,所述方法包括:
获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度;
利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度;
所述第一词语的数量为若干个,将所述若干个第一词语与所述第二词语之间的相似度进行排序。
其中,所述预设词语相似度算法包括:
其中,Siou表示所述第一词语和所述第二词语的交并比,Sl表示所述第一词语的长度,Sc表示所述第二词语的文字在所述第一词语的聚合度,Sf表示所述第二词语的文字在所述第一词语的前置匹配度,所述Wiou,Wl,Wc,Wf分别是所述交并比、长度、聚合度和前置匹配度的权重系数。
其中,所述获取第一词语和第二词语的交并比包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市巴图鲁信息科技有限公司,未经广州市巴图鲁信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910830820.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于确定小程序相似度的方法及装置
- 下一篇:语音交互方法、装置、设备和介质