[发明专利]一种基于堆叠双向lstm神经网络的文本相似度计算方法有效
申请号: | 201811075571.6 | 申请日: | 2018-09-14 |
公开(公告)号: | CN109344399B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 覃勋辉;杜若;向海;侯聪;刘科 | 申请(专利权)人: | 重庆邂智科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/247;G06N3/08 |
代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 赵玉乾 |
地址: | 401120 重庆市渝北区金开*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 堆叠 双向 lstm 神经网络 文本 相似 计算方法 | ||
本发明申请公开了一种基于堆叠双向lstm神经网络的文本相似度计算方法,涉及自然语言处理领域,包括以下步骤:步骤一,将输入句子分词并计算词向量,得到的词向量作为输入词向量;步骤二,将输入词向量以网络堆叠的方式输入到lstm神经网络中,得到输入句子向量;步骤三,按照步骤一和步骤二得到两个输入句子的句子向量;将两个输入句子的句子向量输入到分类器中,得到这两个句子的相似度。本发明申请能够准确进行文本相似度计算。
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于堆叠双向lstm神经网络的文本相似度计算方法。
背景技术
在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性。文本相似度算法用途广泛,如在信息检索中查询与输入语句相关的内容、在智能问答系统中判断输入问句和知识库问句意义是否一致,阅读理解任务中判断输入句子和文档句子的相关程度。所以,提高文本相似度算法的准确性对自然语言处理领域相关应用具有重要的意义。
传统的计算文本相似度算法主要有集合距离、编辑距离、SimHash、lda、lsi、tf-idf等。自然语言本身具有表述的多样性,由于文本对中出现的大量同义词、同义短语等,传统算法中并未有相应的处理机制,导致传统的文本相似度算法的准确性并不高。近年来,随着深度学习技术的发展,出现了基于词向量距离的wmd算法、基于句向量doc2vec算法、Siamese模型等。这些方法在一定程度的提高文本相似度算法的准确性。
发明内容
本发明意在提供一种能够准确进行文本相似度计算的基于堆叠双向lstm神经网络的文本对比算法。
本发明中的基于堆叠双向lstm神经网络的文本对比算法,包括以下步骤:
步骤一,将输入词向量以网络堆叠的方式输入到lstm神经网络中,得到输入句子向量;
步骤二,按照前面步骤得到两个输入句子的句子向量;将两个输入句子的句子向量输入到分类器中,得到这两个句子的相似度。
名词解释:
lstm神经网络:lstm(long short-term memory)神经网络是长短期记忆网络,是一种时间递归神经网络。
本发明的优点在于:
本发明方法采用了一种短路连接的双向lstm网络结构,即输入词向量以网络堆叠的方式输入到lstm神经网络模型中,网络堆叠指输入词向量跨层输入到lstm神经网络模型的每一层中;通过网络堆叠,使lstm神经网络的反向传播机制在运作时,能够有效减小传播梯度消失而导致的训练梯度消失。
每个输入词向量不仅作为被对比的对象,也作为lstm神经网络进行训练的样本,能够随着该算法的使用而使算法本身逐渐趋于完善,这样形成的网络结构具备一定的记忆上下文能力,并且训练收敛速度快,使经过本算法得到的相似度更加准确。
进一步,在步骤一之前,将输入句子分词并计算词向量,得到的词向量作为输入词向量。
输入词向量直接由输入文本中的输入句子中得到,输入文本以输入句子的形式存在,然后,经过对输入句子的分词后获得词向量,使所有输入文本都量化成一个个词向量,为两个文本的相似度对比提供了条件。
进一步,在步骤一之前,将带有相似度标签的语料文本分词,得到的词向量作为目标词向量;将目标词向量以网络堆叠的方式输入到lstm神经网络中,得到目标句子向量;将与输入句子向量具有相同语义的目标句子向量作为正样本,将除此之外的其他目标句子向量作为负样本;通过正样本、负样本和输入句子向量训练lstm神经网络模型和分类器,分别得到lstm神经网络参数和分类器的全连接层参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邂智科技有限公司,未经重庆邂智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811075571.6/2.html,转载请声明来源钻瓜专利网。