[发明专利]文本相似度计算方法及装置、存储介质、电子设备在审
申请号: | 201910746144.4 | 申请日: | 2019-08-13 |
公开(公告)号: | CN110489751A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 刘文强;程序;谢思发;张涵宇;江小琴 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/36;G06K9/62 |
代理公司: | 44232 深圳市隆天联鼎知识产权代理有限公司 | 代理人: | 刘抗美<国际申请>=<国际公布>=<进入 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标文本 文本向量 文本相似度 图谱数据 关系特征 语句序列 文本 向量 预设 计算方法及装置 计算机技术领域 注意力模型 存储介质 电子设备 分词处理 获取目标 文本内容 预设算法 转换处理 相似度 | ||
1.一种文本相似度计算方法,其特征在于,包括:
获取目标文本以及所述目标文本对应的知识图谱数据,并对所述知识图谱数据进行转换处理以确定所述知识图谱数据对应的关系特征向量;
对所述目标文本进行分词处理,确定所述目标文本对应的原始语句序列;
通过所述关系特征向量以及预建立的注意力模型确定所述原始语句序列对应的第一文本向量;
获取预设文本的第二文本向量,并根据预设算法对所述第一文本向量以及所述第二文本向量进行计算以确定所述目标文本与所述预设文本的相似度。
2.根据权利要求1所述的文本相似度计算方法,其特征在于,所述注意力模型包括编码器以及解码器;
所述通过所述关系特征向量以及预建立的注意力模型确定所述原始语句序列对应的第一文本向量包括:
基于所述关系特征向量,通过所述编码器中的门控循环单元将所述原始语句序列进行编码生成中间向量;
通过所述中间向量以及预设的注意力机制确定所述第一文本向量。
3.根据权利要求2所述的文本相似度计算方法,其特征在于,通过所述中间向量以及预设的注意力机制确定所述第一文本向量包括:
获取所述编码器中生成的历史信息,并通过所述历史信息、所述中间向量以及所述注意力机制确定目标语句序列;
将所述目标语句序列以及所述原始语句序列的差异作为损失函数,并通过梯度下降法对所述损失函数进行计算以确定所述第一文本向量。
4.根据权利要求1所述的文本相似度计算方法,其特征在于,对所述知识图谱数据进行转换处理以确定所述知识图谱数据对应的关系特征向量包括:
获取所述知识图谱数据中的关系数组;其中,所述关系数组包括主语向量、谓语向量以及宾语向量;
基于预训练的翻译模型,根据所述主语向量、所述谓语向量以及所述宾语向量确定所述知识图谱数据对应的关系特征向量。
5.根据权利要求1所述的文本相似度计算方法,其特征在于,在获取目标文本以及所述目标文本对应的知识图谱数据之前,所述方法还包括:
构建所述目标文本对应的本体模型,并通过爬虫工具在目标位置处获取所述目标文本对应的关键数据;
将所述关键数据填入所述本体模型以生成所述目标文本对应的所述知识图谱数据并将所述知识图谱数据保存到目标数据库。
6.根据权利要求5所述的文本相似度计算方法,其特征在于,在将所述关键数据填入所述本体模型以生成所述目标文本对应的所述知识图谱数据将所述知识图谱数据保存到目标数据库之后,所述方法还包括:
通过所述爬虫工具在所述目标位置处周期性获取所述目标文本对应的新的关键数据;
根据所述新的关键数据更新所述目标数据库中的所述知识图谱数据。
7.根据权利要求1所述的文本相似度计算方法,其特征在于,根据预设算法对所述第一文本向量以及所述第二文本向量进行计算以确定所述目标文本与所述预设文本的相似度包括:
通过余弦相似度对所述第一文本向量以及所述第二文本向量进行计算以确定所述目标文本与所述预设文本的相似度。
8.一种文本相似度计算装置,其特征在于,包括:
关系特征向量确定单元,用于获取目标文本以及所述目标文本对应的知识图谱数据,并对所述知识图谱数据进行转换处理以确定所述知识图谱数据对应的关系特征向量;
语句序列确定单元,用于对所述目标文本进行分词处理,确定所述目标文本对应的原始语句序列;
文本向量确定单元,用于通过所述关系特征向量以及预建立的注意力模型确定所述原始语句序列对应的第一文本向量;
相似度计算单元,用于获取预设文本的第二文本向量,并根据预设算法对所述第一文本向量以及所述第二文本向量进行计算以确定所述目标文本与所述预设文本的相似度。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910746144.4/1.html,转载请声明来源钻瓜专利网。