[发明专利]一种文本语义相似度评估方法、系统、介质和设备有效

申请号：	201910782086.0	申请日：	2019-08-23
公开（公告）号：	CN110688452B	公开（公告）日：	2022-09-13
发明（设计）人：	孙健;汤宇腾;彭德光;白梨;唐贤伦	申请（专利权）人：	重庆兆光科技股份有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/30;G06N3/04;G06N3/08
代理公司：	重庆渝之知识产权代理有限公司 50249	代理人：	陆蕾
地址：	400000 重庆市璧山区璧泉街道***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本语义相似评估方法系统介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种文本语义相似度评估方法、系统、介质和设备，包括获取文本数据，创建文本数据集，并通过无监督学习方式构建语义向量模型；根据所述语义向量模型对所述文本数据集中的文本进行排序；专业人员根据专业知识校准文本排序结果，并根据校准结果创建训练样本集；将所述训练样本集作为神经网络的输入，训练文本语义相似模型；将用户的询问语句输入所述语义相似模型，获取文本检索结果；在大量词频相似或语义具有专业知识情境下，本发明能有效提高文本检索的效率和准确性。

技术领域

本发明涉及自然语言处理领域，尤其涉及一种文本语义相似度评估方法、系统、介质和设备。

背景技术

目前对于文本相似度的研究主要倾向于两个方面：文本表示和相似度计算。关于文本表示，目前主要有词袋法和TF-IDF(term frequency and inverse documentfrequency)等标准文本表示方法。而常用的相似度计算方法包括余弦相似度、欧氏距离、杰卡德系数等。当文本之间单词重叠率不高且存在需要专业知识才能准确理解时，词袋法和TF-IDF词向量表示方法将不再适用于表示文本间的相似性。这是由于词袋法和TF-IDF等表示方法往往忽略了单词的词序以及单词间的关联性。而且基于上述文本表示方法的相似度计算方法更多是针对于文本中的词频组成的词向量，而非文本语义的相似度。

此外，传统的文本处理方法，往往需要预先消耗大量的人工成本进行数据标注，费时费力且效率低。

发明内容

鉴于以上现有技术存在的问题，本发明提出一种文本语义相似度评估方法、系统、介质和设备，主要解决如何提高文本间语义相似性计算的准确性问题。

为了实现上述目的及其他目的，本发明采用的技术方案如下。

一种文本语义相似度评估方法，包括：

获取文本数据，创建文本数据集，并通过无监督学习方式构建语义向量模型；

根据所述语义向量模型对所述文本数据集中的文本进行排序；

专业人员根据专业知识校准文本排序结果，并根据校准结果创建训练样本集；

将所述训练样本集作为神经网络的输入，训练文本语义相似模型；

将用户的询问语句输入所述语义相似模型，获取文本检索结果。

可选地，所述通过无监督学习方式构建语义向量模型包括：

获取所述文本数据集中文本对应的目标词向量；