[发明专利]文本相似度确定方法、装置、存储介质和电子设备有效
申请号: | 201911367585.X | 申请日: | 2019-12-26 |
公开(公告)号: | CN111199148B | 公开(公告)日: | 2023-01-20 |
发明(设计)人: | 赵耕弘;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F40/30 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 王晓霞 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 确定 方法 装置 存储 介质 电子设备 | ||
1.一种文本相似度确定方法,其特征在于,所述方法包括:
根据每个待测文本中的每个词语的词向量以及所述每个待测文本的词语数量,确定所述每个待测文本的文本向量;
根据所述每个词语的词向量与所述文本向量的相似度以及所述词语数量,确定所述每个待测文本的语义发散度,所述语义发散度用于表征所述每个待测文本的内容所涵盖的领域的广泛程度;
根据预设的相似度评价模型确定两个所述待测文本之间的文本相似度;
通过两个所述待测文本的语义发散度和预设的内容因子对所述文本相似度进行修正,以获取两个所述待测文本之间的目标文本相似度,所述内容因子用于表征两个所述待测文本的文本内容对所述文本相似度的影响程度。
2.根据权利要求1所述的方法,其特征在于,所述根据待测文本中的每个词语的词向量以及所述待测文本的词语数量,确定所述待测文本的文本向量,包括:
对所述每个待测文本进行词语切割,以获取所述每个待测文本中包含的多个词语和所述词语数量;
将所述每个词语转化为词向量;
获取所述多个词语的词向量的向量加和;
将所述向量加和除以所述词语数量的结果作为所述文本向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每个词语的词向量与所述文本向量的相似度以及所述词语数量,确定所述每个待测文本的语义发散度,包括:
计算所述每个词语的词向量与所述文本向量的余弦相似度;
获取多个词语的词向量对应的余弦相似度的相似度加和;
将所述相似度加和除以所述词语数量的结果作为所述语义发散度。
4.根据权利要求1所述的方法,其特征在于,所述通过两个所述待测文本的语义发散度和预设的内容因子对所述文本相似度进行修正,以获取两个所述待测文本之间的目标文本相似度,包括:
根据两个所述待测文本的语义发散度的差值和预设的阻尼指数,确定两个所述待测文本对应的发散度因子;
将所述发散度因子和所述内容因子作为预设的相似度系数算法的输入,以获取所述相似度系数算法输出的相似度系数;
将所述相似度系数与所述文本相似度的乘积作为所述目标文本相似度。
5.根据权利要求4所述的方法,其特征在于,
若所述发散度因子大于预设阈值,所述相似度系数算法表示为:
PenaltyTerm=(1+a)tanh(DivergenceFactor);
若所述发散度因子小于或等于预设阈值,所述相似度系数算法表示为:
其中,所述PenaltyTerm为所述相似度系数,所述DivergenceFactor为所述发散度因子,所述a为所述内容因子。
6.根据权利要求1所述的方法,其特征在于,所述根据预设的相似度评价模型确定两个所述待测文本之间的文本相似度,包括:
将两个所述待测文本作为所述相似度评价模型的输入,以获取所述相似度评价模型输出的第一文本相似度作为所述文本相似度;或者,
通过预设的摘要提取模型,根据所述语义发散度确定所述每个待测文本的本文摘要;
将所述文本摘要作为所述相似度评价模型的输入,以将所述相似度评价模型输出的第二文本相似度作为所述文本相似度。
7.根据权利要求5所述的方法,其特征在于,所述通过预设的摘要提取模型,根据所述语义发散度确定所述每个待测文本的本文摘要,包括:
根据所述待测文本的语义发散度、段落数量和句子数量,确定目标数量;
将所述句子数量作为所述摘要提取模型的参数,通过所述摘要提取模型确定所述待测文本的本文摘要,所述文本摘要包含的句子数量为所述目标数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911367585.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:食材识别更新控制的方法及装置、冷藏设备
- 下一篇:网卡性能统计方法以及装置