[发明专利]一种文本语义相似度评估方法、系统、介质和设备有效
申请号: | 201910782086.0 | 申请日: | 2019-08-23 |
公开(公告)号: | CN110688452B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 孙健;汤宇腾;彭德光;白梨;唐贤伦 | 申请(专利权)人: | 重庆兆光科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 重庆渝之知识产权代理有限公司 50249 | 代理人: | 陆蕾 |
地址: | 400000 重庆市璧山区璧泉街道*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 语义 相似 评估 方法 系统 介质 设备 | ||
本发明提出一种文本语义相似度评估方法、系统、介质和设备,包括获取文本数据,创建文本数据集,并通过无监督学习方式构建语义向量模型;根据所述语义向量模型对所述文本数据集中的文本进行排序;专业人员根据专业知识校准文本排序结果,并根据校准结果创建训练样本集;将所述训练样本集作为神经网络的输入,训练文本语义相似模型;将用户的询问语句输入所述语义相似模型,获取文本检索结果;在大量词频相似或语义具有专业知识情境下,本发明能有效提高文本检索的效率和准确性。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本语义相似度评估方法、系统、介质和设备。
背景技术
目前对于文本相似度的研究主要倾向于两个方面:文本表示和相似度计算。关于文本表示,目前主要有词袋法和TF-IDF(term frequency and inverse documentfrequency)等标准文本表示方法。而常用的相似度计算方法包括余弦相似度、欧氏距离、杰卡德系数等。当文本之间单词重叠率不高且存在需要专业知识才能准确理解时,词袋法和TF-IDF词向量表示方法将不再适用于表示文本间的相似性。这是由于词袋法和TF-IDF等表示方法往往忽略了单词的词序以及单词间的关联性。而且基于上述文本表示方法的相似度计算方法更多是针对于文本中的词频组成的词向量,而非文本语义的相似度。
此外,传统的文本处理方法,往往需要预先消耗大量的人工成本进行数据标注,费时费力且效率低。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种文本语义相似度评估方法、系统、介质和设备,主要解决如何提高文本间语义相似性计算的准确性问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种文本语义相似度评估方法,包括:
获取文本数据,创建文本数据集,并通过无监督学习方式构建语义向量模型;
根据所述语义向量模型对所述文本数据集中的文本进行排序;
专业人员根据专业知识校准文本排序结果,并根据校准结果创建训练样本集;
将所述训练样本集作为神经网络的输入,训练文本语义相似模型;
将用户的询问语句输入所述语义相似模型,获取文本检索结果。
可选地,所述通过无监督学习方式构建语义向量模型包括:
获取所述文本数据集中文本对应的目标词向量;
根据所述文本数据集获取对应的询问文本;
获取所述询问文本对应的询问词向量;
根据所述目标词向量与所述询问词向量的距离相似度和余弦相似度构造语义相似度函数;
根据所述语义相似度函数计算所述文本数据集与所述询问文本中对应语句的语义相似度,获取语义向量模型。
可选地,所述语义相似度函数包括:
Simh(Q,D)=Pd*(Td-Dist(Q,D))/Td+Pc*Cos(Q,D)
其中,Q表示所述询问文本词向量集合,D表示所述文本数据集中的文本词向量集合;Dist(Q,D)为距离相似度,Cos(Q,D)为余弦相似度;Pd表示距离相似度的权重,Pc表示余弦相似度的权重;Td为距离相似度的阈值。
可选地,所述创建训练样本集包括:
根据所述文本数据集中文本与所述询问文本中语句的相似度大小,对所述文本数据集中的文本语句进行排序,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆兆光科技股份有限公司,未经重庆兆光科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910782086.0/2.html,转载请声明来源钻瓜专利网。