[发明专利]句子相似度计算方法及装置有效
申请号: | 201510502241.0 | 申请日: | 2015-08-14 |
公开(公告)号: | CN105095188B | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 刘佳 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中原信达知识产权代理有限责任公司11219 | 代理人: | 张一军,姜劲 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种准确度高的句子相似度计算方法及装置。该句子相似度计算方法,包括针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词,其中,重复词既属于第一句子又属于第二句子,第一孤存词仅属于第一句子,第二孤存词仅属于第二句子;根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值G总,其中G总≥0,并且所有第一孤存词与所有第二孤存词之间的相似程度越高,G总数值越大;根据公式计算SIM(A,B),其中SIM(A,B)表示第一句子和第二句子的句子相似度,表示第一句子对应的第一句向量,表示第二句子对应的第二句向量。 | ||
搜索关键词: | 句子 相似 计算方法 装置 | ||
【主权项】:
一种句子相似度计算方法,其特征在于,包括:步骤S1:针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词,其中,所述重复词既属于所述第一句子又属于所述第二句子,所述第一孤存词仅属于所述第一句子,所述第二孤存词仅属于所述第二句子;步骤S2:根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值G总,其中,G总≥0,并且所有所述第一孤存词与所有所述第二孤存词之间的相似程度越高,所述G总数值越大;步骤S3:根据公式计算SIM(A,B);其中,SIM(A,B)表示所述第一句子和第二句子的句子相似度,表示所述第一句子对应的第一句向量,表示所述第二句子对应的第二句向量;其中,所述步骤S2包括:步骤S21:将所有所述第一孤存词在所有所述第二孤存词进行语义匹配,以得到匹配孤存词对以及所述匹配孤存词对的相似度贡献值G;步骤S22:将所有的所述匹配孤存词对的相似度贡献值G求和,得到所述孤存词相似度总贡献值G总;以及,所述步骤S21包括:步骤S211:确定当前所有所述第一孤存词和所有第二孤存词的并集集合中的词权重最大词X;步骤S212:根据公式G(X)=max{WX×WYi×similarity(X,Yi)|Yi∈集合U}计算G(X),其中G(X)表示针对词语X进行语义配对得到的匹配孤存词对的相似度贡献值,所述集合U在所述X是第一孤存词的情况下表示当前所有所述第二孤存词构成的集合,所述集合U在所述X是第二孤存词的情况下表示当前所有所述第一孤存词构成的集合,Yi表示所述集合U中的元素,Wx表示词语X的词权重,WYi表示词语Yi的词权重,similarity(X,Yi)表示X与Yi的词义相似度且取值范围为[0,1];步骤S213:判断G(X)是否大于0,如果G(X)>0,则确认X和所述G(X)对应的Yi两个词成功地匹配为孤存词对,记录该孤存词对相似度贡献度G=G(X),并且将该孤存词对从所述并集集合中删除,如果G(X)=0,将所述X从所述并集集合中删除;步骤S214:判断所述并集集合是否为空集,如果否,跳至步骤S211。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510502241.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种一键式策略编程的方法及装置
- 下一篇:一种合同文档的自动生成方法和装置