[发明专利]一种词语相似度计算方法、装置以及存储介质有效
申请号: | 201910830820.6 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110633356B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 曾万贵;黄俊钧 | 申请(专利权)人: | 广州市巴图鲁信息科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/253 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;麦小婵 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词语 相似 计算方法 装置 以及 存储 介质 | ||
1.一种词语相似度计算方法,其特征在于,包括:
获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度;所述获取第一词语和第二词语的交并比包括:
其中,count(Wm∩Wa)表示所述第一词语与所述第二词语之间相同的字符的个数,count(Wm∪Wa)表示所述第一词语与所述第二词语之间并集的字符的个数;
所述第二词语的文字在所述第一词语的聚合度包括:
其中,f(i)的取值为:若cm,i属于Wa且cm,i-1不属于Wa时,f(i)等于i;若cm,i属于Wa且cm,i-1属于Wa时,f(i)等于-1;若cm,i不属于Wa时,f(i)等于0;所述第一词语包含的字符按顺序标记,第i个字符记为cm,i,b为纠偏项,所述第一词语和所述第二词语所包含字符的集合分别记为Wm、Wa,所述字符包括汉字、数字、英文字母;
所述第二词语的文字在所述第一词语的前置匹配度包括:
Sf=min{i|cm,i∈Wa}
其中,所述Sf表示字符在所述第一词语和所述第二词语中均存在,并且在所述第一词语中的位置最靠前所对应的位置的值即i最小;
利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度;
所述第一词语的数量为若干个,将所述若干个第一词语与所述第二词语之间的相似度进行排序。
2.如权利要求1所述词语相似度计算方法,其特征在于,所述预设词语相似度算法包括:
其中,Siou表示所述第一词语和所述第二词语的交并比,Sl表示所述第一词语的长度,Sc表示所述第二词语的文字在所述第一词语的聚合度,Sf表示所述第二词语的文字在所述第一词语的前置匹配度,所述Wiou,Wl,Wc,Wf分别是所述交并比、长度、聚合度和前置匹配度的权重系数。
3.如权利要求1所述词语相似度计算方法,其特征在于,所述第一词语的长度包括:
Sl=count(Wm)
其中,count(Wm)为所述第一词语中字符的总数,用来表征长度。
4.如权利要求1所述词语相似度计算方法,其特征在于,所述纠偏项b包括:
b=count(Wm)-N
所述count(Wm)为所述第一词语的长度,所述N包括使所述Sc为非负数的任何数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市巴图鲁信息科技有限公司,未经广州市巴图鲁信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910830820.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于确定小程序相似度的方法及装置
- 下一篇:语音交互方法、装置、设备和介质