[发明专利]基于文本及语义的相似度计算方法、服务器及存储介质在审
申请号: | 201910496311.4 | 申请日: | 2019-06-10 |
公开(公告)号: | CN110222154A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 徐乐乐 | 申请(专利权)人: | 武汉斗鱼鱼乐网络科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 武汉河山金堂专利事务所(普通合伙) 42212 | 代理人: | 胡清堂;陈懿 |
地址: | 430000 湖北省武汉市东湖新技术开发区软*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 语义相似度 语义 文本相似度 相似度计算 存储介质 语句 服务器 自然语言处理 会话提供 内容表达 全局文本 投影距离 向量空间 综合计算 向量化 会话 重合 权重 回复 计算机 重复 | ||
本发明实施例公开了一种基于文本及语义的相似度计算方法、服务器及存储介质,属于自然语言处理领域。该方法包括:选取任意两个向量化表示的语句文本,通过计算两个文本在向量空间上的投影距离,得到两个文本的语义相似度,再根据两个文本的文本重合部分在两个语句文本构成的全局文本中的占比,计算文本相似度,分别设定文本及语义相似度的权重,综合计算文本及语义相似度评分。通过该技术方案,可以兼顾会话文本的语义及文本相似度,为计算机会话提供多样化的内容表达,有效避免单一重复的回复。
技术领域
本发明涉及自然语言处理领域,尤其涉及基于文本及语义的相似度计算方法、服务器及存储介质。
背景技术
在进行人机对话或计算机接收自然语言指令时,计算机必然要对人类语言进行处理理解。由于人类语言的的多样化表达,在进行自然语言处理(NLP)时,不可避免需要理解字面意思和语义,同时,在计算在进行会话时,不仅需要考虑会话内容相关,而且还应考虑回复内容的多样性。
然而,现有会话内容的相似度计算往往只考虑语义的理解,对文本进行分词后,基于词汇或词汇集合通过频率统计或文本聚类计算语义相似,或基于余弦求取文本相似,这方法均单方面考虑文本字面相似度或文本语义相似,难以在保障会话语义相关的同时实现会话的多样表达,表达方式过于单一。
发明内容
有鉴于此,本发明实施例提供了基于文本及语义的相似度计算方法、服务器及存储介质,兼顾会话语句的文本相似度及语义相似度,保障机器会话时内容的多样化表达,提升用户体验。
结合本发明实施例的第一方面,提供了一种基于文本及语义的相似度计算方法,包括:
从语料库中选取任意两个向量化表示的语句文本;
通过计算两个语句文本在向量空间上的投影距离,得到所述两个语句文本的语义相似度;
根据所述两个语句文本的文本重合部分在两个语句文本构成的全局文本中的占比,计算所述两个语句文本的文本相似度;
分别设定所述两个语句文本的文本相似度和语义相似度的权重,综合计算所述两个语句文本的文本及语义相似度评分。
结合本发明实施例的第二方面,提供了一种服务器,包括:
选取模块,用于从语料库中选取任意两个向量化表示的语句文本;
第一计算模块,用于通过计算两个语句文本在向量空间上的投影距离,得到所述两个语句文本的语义相似度;
第二计算模块,用于根据所述两个语句文本的文本重合部分在两个语句文本构成的全局文本中的占比,计算所述两个语句文本的文本相似度;
评分模块,用于分别设定所述两个语句文本的文本相似度和语义相似度的权重,综合计算所述两个语句文本的文本及语义相似度评分。
结合本发明实施例的第三方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例第一方面所述方法的步骤。
本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的所述方法的步骤。
本发明实施例的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被一个或多个处理器执行时实现本发明实施例第一方面提供的所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼鱼乐网络科技有限公司,未经武汉斗鱼鱼乐网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910496311.4/2.html,转载请声明来源钻瓜专利网。