[发明专利]一种基于词向量的句子相似度比较方法有效
申请号: | 201711273188.7 | 申请日: | 2017-12-06 |
公开(公告)号: | CN107844608B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 全哲;乐雨泉;朱莉;叶婷;林轩 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06F40/242;G06F40/211;G06K9/62 |
代理公司: | 深圳市兴科达知识产权代理有限公司 44260 | 代理人: | 王翀;贾庆 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 向量 句子 相似 比较 方法 | ||
本发明公开了一种基于词向量的句子相似度比较方法。本发明基于大型语料库训练得到词向量模型,并且通过斯坦福句法分析器将句子表示成句法成分树结构,然后在词向量模型中搜索句子成分树叶子节点所对应的词向量,这此基础上,我们提出了一种基于词向量的句子相似度比较方法,这种方法首先构建句子成分向量树,然后通过我们提出的soft partial tree kernel函数计算最终的句子相似度得分。实验结果表示,这种方法相对于目前性能表现很强的众多神经网络方法,在超过一半数据集上都取得了最好的效果,并且在平均性能上取得了最先进的效果。这说明了这种方法是一种很有效的句子相似度度量方式。
技术领域
本发明涉及一种基于词向量的句子相似度比较方法,属于自然语言处理技术领域。
背景技术
句子相似度比较是自然语言处理的一个基本任务,它广泛应用于很多领域,比如信息检索、机器翻译、文本分类等。只要是需要判断二个句子相似性的场景,都离不开句子相似度判断方法。相似度判断方法越准确,有利于提高各种需要用到此相似度方法的系统的性能。
句子相似度测量是自然语言处理中许多应用程序的核心,也是大多数文本相关任务的基础。句子相似度方法研究有很长的历史,有基于向量空间模型的方法,也有将句子通过神经网络嵌入成句子向量的方法,这一类方法最近取得了很大的成功,比如利用DNN(深度神经网络),RNN(循环神经网络),LSTM(长短期记忆网络)等。但是这种将句子表示成向量的做法忽略了句子本身存在的句法信息,会丢失句子的句法信息。
发明内容
本发明克服现有技术存在的不足,本发明公开了一种基于词向量的句子相似度比较方法。本发明基于大型语料库训练得到词向量模型,并且通过斯坦福句法分析器将句子表示成句法成分树结构,然后在词向量模型中搜索句子成分树叶子节点所对应的词向量,这此基础上,我们提出了一种基于词向量的句子相似度比较方法,这种方法首先构建句子成分向量树,然后通过我们提出的soft partial tree kernel 函数计算最终的句子相似度得分。实验结果表示,这种方法相对于目前性能表现很强的众多神经网络方法,在超过一半数据集上都取得了最好的效果,并且在平均性能上取得了最先进的效果。这说明了这种方法是一种很有效的句子相似度度量方式。这说明了这种方法是一种很有效的句子相似度度量方式。
为解决上述技术问题,本发明所采用的技术方案为:
一种基于词向量的句子相似度比较方法,包括如下步骤:
步骤一、训练得到词向量模型,所述词向量模型包含词和词的向量;
步骤二、对于待测试的句子对,分别生成句子的句法成分树结构,每个句子对应的句法成分树结构的叶子节点都为句中的词;
步骤三、基于句子的句子成分树结构,构建句子向量树结构;
步骤四、将句子向量树结构输入计算,即得到二个句子向量树结构的相似度得分;包括如下步骤:
4.1)对于步骤三中构建的两个句子向量树结构T1,T2,首先生成句子向量树结构的子树集F1={N1,N2,…,Ni},F2={M1,M2,…,Mj},其中Ni表示T1生成的最后一个子树的根节点,i表示T1生成子树的个数,Mj代表 T2生成的最后一个子树的根节点,j代表T2生成子树的个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711273188.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:缓冲装置
- 下一篇:用于形成包装的方法和系统