[发明专利]一种文本相似度计算方法、装置、电子设备及存储介质在审
申请号: | 201811066429.5 | 申请日: | 2018-09-13 |
公开(公告)号: | CN110895656A | 公开(公告)日: | 2020-03-20 |
发明(设计)人: | 徐乐乐 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 430070 湖北省武汉市武汉东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 相似 计算方法 装置 电子设备 存储 介质 | ||
本发明实施例公开了一种文本相似度计算方法、装置、电子设备及存储介质,所述方法包括:基于word2vec空间向量模型计算两个待匹配文本句之间的语义相似度;基于文档主题生成模型LDA计算所述两个待匹配文本句之间的主题相似度;根据所述语义相似度和所述主题相似度确定所述两个待匹配文本句之间的综合相似度。通过采用上述技术方案,可计算出与输入文本最合适的候选答案集合,由机器人自动对输入文本进行回复,有效提高了候选答案与输入文本的相关度,提高了答案的完整性以及提高了文本相似度的计算精度。
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种文本相似度计算方法、装置、电子设备及存储介质。
背景技术
目前,基于iOS平台或者基于Android平台的直播间应用程序发展迅速,深受用户喜爱。弹幕是直播平台一种非常流行的用于信息交流以及信息共享的表达方式,通过弹幕可以实现观众与主播之间的互动,有助于营造良好的直播氛围。
在机器人会话领域中,其中一个重要环节是找出与输入语句语义相似度最高的回复。同样,在直播间经常需要根据水友弹幕,计算与其相似度较高的回复,由机器人针对水友弹幕进行自动回复。目前,在直播间中通常采用TF-IDF(Term Frequency-InverseDocument Frequency,词频逆文本频率)算法计算两条弹幕之间的相似度,但是,TF-IDF算法的主要思想是基于词或者短语在文档集中出现的频率分布决定每篇文档的关键词,然后根据关键词在文档集中出现的次数构建词频向量,通过计算文档的词频向量之间的相似度确定文档之间的相似度,可见,TF-IDF算法仅考虑了文档中词的词频,或者说仅考虑了文档中词的重要程度。
因此,为了提高文本相似度计算精度,需要对现有相似度计算算法继续进行改进。
发明内容
本发明实施例提供一种文本相似度计算方法、装置、电子设备及存储介质,通过所述方法可提高文本相似度的计算精度。
为实现上述目的,本发明实施例采用如下技术方案:
第一方面,本发明实施例提供了一种文本相似度计算方法,所述方法包括:
基于word2vec空间向量模型计算两个待匹配文本句之间的语义相似度;
基于LDA(Latent Dirichlet Allocation,文档主题生成模型)计算所述两个待匹配文本句之间的主题相似度;
根据所述语义相似度和所述主题相似度确定所述两个待匹配文本句之间的综合相似度。
进一步的,所述基于word2vec空间向量模型计算两个待匹配文本句之间的语义相似度,包括:
将所述两个待匹配文本句在所述word2vec空间向量模型中做映射,分别得到所述两个待匹配文本句对应的文本向量;
基于所述文本向量计算所述两个待匹配文本句之间的语义相似度。
进一步的,所述基于所述文本向量计算所述两个待匹配文本句之间的语义相似度,包括:
按照如下公式计算所述两个待匹配文本句之间语义相似度:
其中,vecSim(A,B)表示待匹配文本句A与待匹配文本句B之间的语义相似度,表示待匹配文本句A在word2vec空间向量模型中对应的文本向量,表示待匹配文本句B在word2vec空间向量模型中对应的文本向量,n表示文本向量和的维度。
进一步的,在所述基于word2vec空间向量模型计算两个待匹配文本句之间的语义相似度之前,所述方法还包括:
收集目标领域的文本句,以形成针对所述目标领域的语料库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811066429.5/2.html,转载请声明来源钻瓜专利网。