[发明专利]一种文本相似度计算方法、装置、电子设备及存储介质在审

申请号：	201811066429.5	申请日：	2018-09-13
公开（公告）号：	CN110895656A	公开（公告）日：	2020-03-20
发明（设计）人：	徐乐乐	申请（专利权）人：	武汉斗鱼网络科技有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/30;G06K9/62
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	430070 湖北省武汉市武汉东湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本相似计算方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种文本相似度计算方法、装置、电子设备及存储介质，所述方法包括：基于word2vec空间向量模型计算两个待匹配文本句之间的语义相似度；基于文档主题生成模型LDA计算所述两个待匹配文本句之间的主题相似度；根据所述语义相似度和所述主题相似度确定所述两个待匹配文本句之间的综合相似度。通过采用上述技术方案，可计算出与输入文本最合适的候选答案集合，由机器人自动对输入文本进行回复，有效提高了候选答案与输入文本的相关度，提高了答案的完整性以及提高了文本相似度的计算精度。

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种文本相似度计算方法、装置、电子设备及存储介质。

背景技术

目前，基于iOS平台或者基于Android平台的直播间应用程序发展迅速，深受用户喜爱。弹幕是直播平台一种非常流行的用于信息交流以及信息共享的表达方式，通过弹幕可以实现观众与主播之间的互动，有助于营造良好的直播氛围。

在机器人会话领域中，其中一个重要环节是找出与输入语句语义相似度最高的回复。同样，在直播间经常需要根据水友弹幕，计算与其相似度较高的回复，由机器人针对水友弹幕进行自动回复。目前，在直播间中通常采用TF-IDF(Term Frequency-InverseDocument Frequency，词频逆文本频率)算法计算两条弹幕之间的相似度，但是，TF-IDF算法的主要思想是基于词或者短语在文档集中出现的频率分布决定每篇文档的关键词，然后根据关键词在文档集中出现的次数构建词频向量，通过计算文档的词频向量之间的相似度确定文档之间的相似度，可见，TF-IDF算法仅考虑了文档中词的词频，或者说仅考虑了文档中词的重要程度。

因此，为了提高文本相似度计算精度，需要对现有相似度计算算法继续进行改进。

发明内容

本发明实施例提供一种文本相似度计算方法、装置、电子设备及存储介质，通过所述方法可提高文本相似度的计算精度。

为实现上述目的，本发明实施例采用如下技术方案：

第一方面，本发明实施例提供了一种文本相似度计算方法，所述方法包括：

基于word2vec空间向量模型计算两个待匹配文本句之间的语义相似度；

基于LDA(Latent Dirichlet Allocation，文档主题生成模型)计算所述两个待匹配文本句之间的主题相似度；

根据所述语义相似度和所述主题相似度确定所述两个待匹配文本句之间的综合相似度。

进一步的，所述基于word2vec空间向量模型计算两个待匹配文本句之间的语义相似度，包括：

将所述两个待匹配文本句在所述word2vec空间向量模型中做映射，分别得到所述两个待匹配文本句对应的文本向量；

基于所述文本向量计算所述两个待匹配文本句之间的语义相似度。

进一步的，所述基于所述文本向量计算所述两个待匹配文本句之间的语义相似度，包括：