[发明专利]一种句子语义相似度计算方法有效
申请号: | 201710537644.8 | 申请日: | 2017-07-04 |
公开(公告)号: | CN107291699B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 彭剑辉;郭建京 | 申请(专利权)人: | 湖南星汉数智科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市开福区*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 句子 语义 相似 计算方法 | ||
本发明公开了一种句子语义相似度计算方法,包括以下过程:通过深度学习模型分别对第一句子、第二句子进行特征提取,得到第一句子全局语义向量和第二句子全局语义向量;通过特征工程分别对第一句子的单词、第二句子的单词进行特征提取,得到第一句子局部语义向量和第二句子局部语义向量;分别将第一句子、第二句子的全局语义向量与局部语义向量进行拼接,得到第一句子的一维特征向量和第二句子的一维特征向量;计算第一句子的一维特征向量与第二句子的一维特征向量之间的向量距离,进而得到第一句子与第二句子之间的相似度。通过本发明方法提取的句子特征更加全面、深入,并且具有一定的针对性,计算得到的相似度准确性更高。
技术领域
本发明涉及自然语言处理领域,特别涉及一种句子语义相似度计算方法。
背景技术
语义相似度计算是文本处理中最基础使用最广泛的技术。从单词层面来看,存在一词多义、歧义等问题;从句子层面来看,句子的句式灵活多变,并不是单词堆积这么简单。因此,研究语义相似度计算有助于更好地进行语义理解。语义理解历来是自然语言处理领域的一个难题,在很多的研究中都发挥着至关重要的作用。比如,信息检索、文本聚类、转述识别、机器翻译、自动问答、用户意图理解等等。在搜索领域(Google、Baidu等搜索引擎),社区问答领域(Yahoo!Answer、Quora、百度知道、知乎等),语义理解的准确性直接关乎答案质量和用户体验。因此,对于自然语言处理领域,研究语义相似度计算十分重要。
句子的语义相似度计算就是要根据句子的构成和语义信息来计算两个句子的相似程度。它在信息检索、问答系统、文本分类、文本查重等自然语言处理的任务中都发挥着重要作用。例如,在搜索引擎和问答系统中,计算机需要在海量的互联网数据中搜寻到符合用户意图的答案,单纯的依靠关键字查询返回与之相关的网页往往会存在许多相同的内容,而且有的词存在多个涵义,返回的内容可能并不是用户意图想要的。而利用句子语义相似度计算可以对句子进行语义分析,提取特征,理解用户的真正需求,计算找到的候选集与用户意图的相似度,相似度最大的就是最佳答案。这样返回的答案就更加准确。因此,句子的语义相似度计算在多个领域都有重要的研究意义。
目前,句子的语义相似度计算一般有两种方式:一种是传统的基于特征工程的方法,它需要人为地进行特征提取来表示句子,进而进行相似度计算;另一种是基于深度学习的方法,由机器自动进行特征提取。这两种方法各有利弊,人为的进行特征提取优点是可以提取的特征更加准确,毕竟人比机器更加了解语言,缺点是对人的要求很高,提取的特征可能不全面,不能很好地表示句子。而基于深度学习的方法优点是不用人力,机器可以自动进行,节约资源,缺点是提取的特点针对性不是很好,而且神经网络模型的可解释性欠佳。现有的语义相似度计算方法只偏向于使用其中一种,将两类方法得到的向量结合起来的方法很少,原因在于结合实现代码比较复杂,实现起来非常困难。
因此,亟需一种基于深度学习和特征工程的句子语义相似度计算方法。
发明内容
发明的目的:为了解决现有句子语义相似度计算方法存在的技术问题,提供一种句子语义相似度计算方法,本发明结合深度学习模型与传统特征工程方法,将基于特征工程和基于深度学习的方法结合起来进行句子的特征提取两种方法互相弥补,使得特征提取更加全面和准确。
为达到上述目的,本发明采用的技术方案是:提供了一种句子语义相似度计算方法,包括以下过程:
步骤1:通过深度学习模型分别对第一句子、第二句子进行特征提取,得到第一句子全局语义向量和第二句子全局语义向量;
通过特征工程分别对第一句子的单词、第二句子的单词进行特征提取,得到第一句子局部语义向量和第二句子局部语义向量;包括以下过程:
将第一句子每个单词与第二句子每个单词分别进行相似度计算,得到相似度矩阵;
基于相似度矩阵计算第一句子每个单词与第二句子每个单词的对齐参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南星汉数智科技有限公司,未经湖南星汉数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710537644.8/2.html,转载请声明来源钻瓜专利网。