[发明专利]词义相似度确定方法及装置、电子设备及存储介质有效
申请号: | 201910000540.2 | 申请日: | 2019-01-02 |
公开(公告)号: | CN111401070B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 李小涛;游树娟 | 申请(专利权)人: | 中国移动通信有限公司研究院;中国移动通信集团有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/247;G06F40/211;G06F16/36 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张振伟;张颖玲 |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词义 相似 确定 方法 装置 电子设备 存储 介质 | ||
1.一种词义相似度确定方法,其特征在于,包括:
获取目标词所在上下文的上下文语义;
根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;
根据所述当前词义,确定所述目标词的第一词义向量;
根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。
2.根据权利要求1所述的方法,其特征在于,所述获取目标词所在上下文的上下文语义,包括:
获取所述目标词所在上下文的词集合;
确定所述词集合中每个词的权重;
基于所述词集合中所述词的词义和所述权重,确定所述上下文语义。
3.根据权利要求2所述的方法,其特征在于,
所述确定所述词集合中每个词的权重,包括:
确定所述词集合中每个词与所述目标词相隔的词个数;
确定所述词集合中词的词义数量;
根据所述词个数和/或所述词义数量,确定所述权重。
4.根据权利要求3所述的方法,其特征在于,
所述词个数与所述权重负相关;和/或,所述词义数量与所述权重负相关。
5.根据权利要求1至4任一项所述的方法,其特征在于,
所述根据所述当前词义,确定所述目标词的第一词义向量,包括:
确定所述当前词义对应的编码标识,其中,同一个词的不同词义对应了不同的编码标识;
由词义向量模型基于所述编码标识及所述目标词输出所述第一词义向量。
6.根据权利要求5所述的方法,其特征在于,其特征在于,
所述由词义向量模型基于所述编码标识及所述目标词输出所述第一词义向量,包括:
根据所述当前词义、所述目标词的词形标识,及所述目标词,输出所述第一词义向量。
7.根据权利要求6所述的方法,其特征在于,
所述根据所述当前词义、所述目标词的词形标识、及所述目标词,输出所述第一词义向量,包括:
获取所述目标词的原形态;
组合所述编码标识、所述词形标识和所述目标词的原形态,得到所述词义向量模型的输入;
所述词义向量模型基于所述输入,输出所述第一词义向量。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据同一训练词的不同词义生成不同的编码标识;
将不同形态的所述训练词转换为原形态;
以所述编码标识及所述原形态的所述训练词、及所述编码标识及所述原形态的所述训练词共同对应的词义为训练样本,训练所述词义向量模型。
9.一种词义相似度确定装置,其特征在于,包括:
上下文语义模块,用于获取目标词所在上下文的上下文语义;
当前词义模块,用于根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;
第一词义向量模块,用于根据所述当前词义,确定所述目标词的第一词义向量;
相似度模块,用于根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。
10.一种电子设备,其特征在于,包括:
存储器,
处理器,与存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,能够实现权利要求1至8任一项提供的方法。
11.一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令,能够实现权利要求1至8任一项提供的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团有限公司,未经中国移动通信有限公司研究院;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910000540.2/1.html,转载请声明来源钻瓜专利网。