[发明专利]一种基于注意力的语义文本相似度计算方法有效
申请号: | 202011002489.8 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112101043B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 张华熊;张豪 | 申请(专利权)人: | 浙江理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62;G06N3/04;G06F40/194;G06F40/151 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 王琛 |
地址: | 310018 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 语义 文本 相似 计算方法 | ||
本发明公开了一种基于注意力的语义文本相似度计算方法,包括:步骤一:对数据集中的每一对文本对进行预处理,从而得到对应的文本数据样本;步骤二:将所有样本分为训练集和验证集,搭建神经网络并利用训练集样本对该神经网络进行训练,得到用于语义文本相似度计算的网络模型;步骤三:将待计算的文本对经预处理后输入网络模型中,即可得到该文本对的语义相似度计算结果。本发明设计的神经网络能更有效地提取文本的语义信息,提取两个文本间更细粒度的交互信息;该神经网络使用多个注意力机制能增强两个文本间交互信息中重要信息,提高语义文本相似度计算准确率。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于注意力的语义文本相似度计算方法。
背景技术
语义文本相似度计算是自然语言处理领域的一个重要研究课题,语义文本相似度旨在计算两个句子/文本之间的语义等价程度,它可以应用于许多任务,如机器翻译、释义问题、自动问答、文本分类、信息检索等。
目前,在语义文本相似度计算方面已有很多研究成果,可归纳为以下三类:
(1)基于字面匹配的语义文本相似度计算方法,比较典型的有基于TF-IDF的语义相似度计算方法,基于TF-IDF的语义文本相似度计算方法是将文本建模成词频向量,运用余弦相似度来衡量文本之间的相似度;这类方法的优点是计算速度快、工作量小,缺点是忽略了词语的语义信息,需要人工设定停用词表。
(2)基于潜在语义分析的概率主题语义文本相似度计算方法,比较典型的有基于LDA(Latent Dirichlet Allocation)的语义文本相似度计算模型,主要思想是利用词语中的共同信息对文本进行主题建模,挖掘出文本中潜在的语义信息,从而计算出文本之间的语义相似度;这类方法的优点是考虑到了词语的深层语义信息,准确率高于第(1)类方法,缺点是没有考虑到词与词之间的位置关系,受样本种类限制较大。
(3)基于深度学习的语义文本相似度计算方法,针对语义文本相似度计算提出了两种类型的深度学习框架,第一个框架基于暹罗网络,第二个框架叫做匹配聚合,这两个框架的思想是通过捕获输入句子的文本表示之间的交互特征,从多个角度计算语义相似度,两者的区别主要体现在对交互特征的捕捉上;暹罗网络框架的优点是共享参数使模型更易于训练,缺点是在编码过程中,两个句子之间没有明确的交互作用,可能会丢失一些重要的信息。
匹配聚合框架下,首先对两个句子中较小的单元(如单词或上下文向量)进行匹配,然后将匹配结果聚合成一个向量,从而做出最终决策,该框架抓住了两个句子之间更多的交互特征,因此通常比暹罗网络框架性能更好。如Yin W等人在文献《Abcnn:Attention-based convolutional neural network for modeling sentence pairs,December 2016,Transactions of the Association for Computational Linguistics 4(4):259-272》中提出了一种模型称为ABCNN,它是一种基于注意力的卷积神经网络,用于对句子进行编码以计算句子相似度。Chen Q等人在文献《Enhanced lstm for natural language inference,ACL 2017,long paper,Vancouver,Canada,July 30th-August 4th.》中提出了ESIM模型是基于匹配聚合框架的著名模型,它通过两个句子之间的注意力机制捕获了高阶交互,并在包括文本相似性在内的许多NLP任务中取得了良好的性能。
发明内容
鉴于上述,本发明提出了一种基于注意力的语义文本相似度计算方法,通过建立并训练神经网络,实现语义文本相似度计算,在提取句子间交互信息更加有效,并有较高的准确率。
一种基于注意力的语义文本相似度计算方法,包括如下步骤:
(1)获取数据集并对数据集中每条文本进行预处理,从而得到大量数据样本,所述数据集中的文本均为成对组合且每一组均已人工标记是否语义相似;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江理工大学,未经浙江理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011002489.8/2.html,转载请声明来源钻瓜专利网。