[发明专利]一种语义相关度的确定方法及确定装置有效

专利信息
申请号: 201710188870.X 申请日: 2017-03-27
公开(公告)号: CN108664464B 公开(公告)日: 2021-07-16
发明(设计)人: 游树娟;李小涛;牛亚文 申请(专利权)人: 中国移动通信有限公司研究院;中国移动通信集团公司
主分类号: G06F40/247 分类号: G06F40/247;G06F40/30;G06F40/284
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 朱琳爱义
地址: 100032 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语义 相关 确定 方法 装置
【说明书】:

发明公开了一种语义相关度的确定方法及确定装置,该确定方法将word2vec训练模型与同义词词林相结合,通过同义词词林获取一个词的单义词,再基于word2vec的余弦语义相关度计算规则确定两个词语之间的语义相关度,而没有利用同义词词林的语义相关度计算规则,所以该确定方法不仅充分考虑了词语在上下文语境中的语义信息,还有效地解决了同义词、多义词、非邻域词之间的语义相关度计算不准确的问题,大大地提高了各词语之间语义相关度的计算准确性。

技术领域

本发明涉及数据业务领域,尤指一种语义相关度的确定方法及确定装置。

背景技术

计算机和互联网技术的飞速发展,使得网络上的数据信息呈指数级增长,而这些数据信息对于计算机来说是非常难于理解和应用的,为了能够从大量数据信息中迅速有效地获取所需要的数据信息,就需要对数据信息进行智能自动化处理,其中,最核心问题就是语义相关度的计算;语义相关度,是从定量的角度对语义信息之间的相关度进行衡量,是自然语言处理领域的重要研究方向。

目前,关于语义相关度的计算方法主要分为三大类:基于词典的方法、基于大规模语料库的方法、以及基于同义词林的方法;其中,基于词典的方法主要是借助于结构化的词典来计算词与词之间的语义相关度,但构建一个结构合理的词典需要丰富的专业知识和大量的标注数据,费时费力,同时,结构化的词典仅描述了词语本身之间的相关性,却忽略了上下文语境的相关信息,使得语义相关度计算结果的准确性较低;基于大规模语料库的方法,虽然考虑了上下文语境的相关信息,但在词向量的训练过程中无法区分同义词和多义词,对于具有同义词、多义词以及对非邻域内的相关词汇的相关度的计算准确率较低;基于同义词林的方法,是以哈工大同义词词林为基础的,虽然该方法对同义词和近义词的语义相似度具有很好的表达,但其忽略了词语的上下文语境的相关信息,使得很多词汇的语义相关度计算结果不符合人们对语义相关的理解和度量。

基于此,如何提高词语之间语义相关度的计算准确率,在既能充分考虑上下文语境的相关信息的同时,又能很好地区分同义词和多义词,是本领域技术人员亟待解决的技术问题。

发明内容

本发明实施例提供了一种语义相关度的确定方法及确定装置,用以解决现有技术中如何提高词语之间语义相关度的计算准确率,在既能充分考虑上下文语境的相关信息的同时,又能很好地区分同义词和多义词的问题。

本发明实施例提供了一种语义相关度的确定方法,包括:

在预先采用词向量word2vec训练模型训练获得的词向量中选取第一词语与第二词语,并分别确定所述第一词语与所述第二词语的向量;

确定所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度;

在确定在所述第一词语与所述第二词语中至少有一个属于预设的同义词词林时,确定所述第一词语或所述第二词语属于所述同义词词林且属于所述词向量的单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度;将所述第二余弦语义相关度与所述第一余弦语义相关度中的最大值作为所述第一词语与所述第二词语之间的语义相关度;

在确定所述第一词语与所述第二词语均不属于所述同义词词林时,将确定出的所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度作为所述第一词语与所述第二词语之间的语义相关度。

在一种可能的实施方式中,在本发明实施例提供的上述确定方法中,还包括:

获取中文语料库;

对获取到的所述中文语料库进行中文分词处理;

采用所述word2vec训练模型对中文分词处理后的所述中文语料库进行训练,得到与所述中文语料库对应的词向量。

在一种可能的实施方式中,在本发明实施例提供的上述确定方法中,所述中文语料库为维基百科中文语料库,在所述对获取到的所述中文语料库进行中文分词处理之前,还包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团公司,未经中国移动通信有限公司研究院;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710188870.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top