[发明专利]文本相关性的确定方法及装置有效

申请号：	202010201255.X	申请日：	2020-03-20
公开（公告）号：	CN111382563B	公开（公告）日：	2023-09-08
发明（设计）人：	王皓;周宇超;康斌;高雪峰	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/194	分类号：	G06F40/194;G06F40/126;G06F40/211;G06F40/289;G06F18/22
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	崔晓岚;张颖玲
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本相关性确定方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种文本相关性的确定方法及装置；方法包括：获取至少两个文本向量模型；通过各个所述文本向量模型分别对第一文本及第二文本进行向量编码，得到用于表征所述第一文本的第一文本向量、及用于表征所述第二文本的第二文本向量；分别基于各所述文本向量模型得到的第一文本向量及第二文本向量，确定所述第一文本与所述第二文本的相似度，以得到至少两个相似度；根据得到的所述至少两个相似度，确定所述第一文本与所述第二文本的相关性。通过本发明，能够更加准确地确定两个文本的相关性。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种文本相关性的确定方法及装置。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(NLP，Nature Language processing)是人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。文本处理是自然语言处理技术所包括的重要技术之一。

文本是用于传达信息的常用媒介。在为用户推荐感兴趣的文章、对文章的评论进行质量分析、对文章的评论进行排序等应用场景中，均需要对两个文本的相关性进行分析，以提升用户体验。

相关技术中，通常使用的相关性确定方法包括：根据文本的词频-逆文本频率(Term Frequency–Inverse Document Frequency，TF-IDF)向量，进行相似度计算；根据文本的主题分布向量，进行相似度计算；根据通过文本中每个词的词嵌入向量得到的向量表示，进行相似度计算。然而上述方式所采用的向量并无法准确对文本进行表征，导致两个文本的相关性的确定不够准确。

发明内容

本发明实施例提供一种文本相关性的确定方法及装置，能够更加准确地确定两个文本的相关性。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种文本相关性的确定方法，包括：

获取至少两个文本向量模型；

通过各个所述文本向量模型分别对第一文本及第二文本进行向量编码，得到用于表征所述第一文本的第一文本向量、及用于表征所述第二文本的第二文本向量；

分别基于各所述文本向量模型得到的第一文本向量及第二文本向量，确定所述第一文本与所述第二文本的相似度，以得到至少两个相似度；

根据得到的所述至少两个相似度，确定所述第一文本与所述第二文本的相关性。

上述方案中，所述分别基于各所述文本向量模型得到的第一文本向量及第二文本向量，确定所述第一文本与所述第二文本的相似度，包括：

分别获取各所述文本向量模型得到的第一文本向量与第二文本向量的夹角余弦值；

将所述夹角余弦值，作为所述第一文本与所述第二文本的相似度。

本发明实施例提供一种文本相关性的确定装置，包括：