[发明专利]一种短句相似度的计算方法及系统在审

专利信息
申请号: 202110226692.1 申请日: 2021-03-01
公开(公告)号: CN112966521A 公开(公告)日: 2021-06-15
发明(设计)人: 孙譞;韩宗达;詹舒波;黄宇 申请(专利权)人: 北京新方通信技术有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F40/211;G06F40/247;G06K9/62
代理公司: 北京三聚阳光知识产权代理有限公司 11250 代理人: 刘静
地址: 100089 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 短句 相似 计算方法 系统
【说明书】:

发明公开了一种短句相似度的计算方法及系统,方法包括:通过对待计算相似度的第一短句、第二短句进行分词处理,根据每个分词所包含的每个字的字向量,及通过近同义词库获得该分词的所有近同义词所包含的每个字的字向量,分别计算第一短句、第二短句中每个分词的TFIDF值及词向量,分别对第一短句、第二短句的各个词向量及其TFIDF值对应的动态权重进行加权求和,得到第一短句、第二短句对应的句向量,利用余弦相似度计算第一短句、第二短句的相似度。本发明提出基于字向量和分词的TFIDF值动态权重的句向量,提高了关键词的突出能力,采用字向量避免了没有对应词向量的问题,使用近义词弥补了字向量的缺陷,提高相似度的准确率。

技术领域

本发明涉及计算机技术领域,具体涉及一种短句相似度的计算方法及系统。

背景技术

汉语属于弱语法语言,其语言表达的丰富性往往为语义匹配带来挑战,比如词序的颠倒、近同义词等问题;为了让匹配算法适应这种丰富性,借助上下文是一个可行的思路,比如在判断词的语义一致性时,认为同样上下文的情况下,不同的词所表达的语义是一致的,这个判别标准同样可以扩展到句子级别,即上下文一致的情况下,不同句子表达的语义是一致,因此,在处理中长句子时,句子的长度让语义得以表达的更加浅显,语义匹配的难度更小。相对的,在短句的语义匹配中,语义的表达受到了限制,句子层面的语义表达性减弱,而单个词或者字对语义表达的贡献度也变大,可能一个虚词都会导致语义的偏差,因此,我们所要解决的关键问题就是如何对短句进行语义匹配。

目前,常用的方法有:常用的基于字面距离的语义匹配,虽然能够简单直观的进行计算,但同义、近义、多义词、等效语义短语无法体现;基于机器学习的语义匹配,表示相关的任务,不同任务会出现不同的表示,然后以标注数据为模型设定一个目标,通过目标判断两个句子是相似或不相似,模型在学习的过程中不断拟合特征和目标之间的关系,寻找到潜在的语义规律,需要大量的标注数据对模型进行训练,标注质量也会影响模型的训练;基于句向量的语义匹配,不依赖于训练数据,通过bert预训练的模型得到词向量和句向量,通过距离或向量夹角可以直接评价句子之间的语义相似度,但是基于word2vec的句向量提取方法存在大量未登陆词问题(没有对应的词向量),会影响到整体的向量空间,简单的平均或是池化操作无法过滤到一些无用词(虚词)的影响,基于预训练模型的句向量提取方法在中长句上更有优势,在短句上容易受到无用词的影响,存在短句间相似度计算准确率低的问题。

发明内容

因此,本发明提供的一种短句相似度的计算方法及系统,克服了现有技术中短句间的相似度计算准确率低的缺陷。

为达到上述目的,本发明提供如下技术方案:

第一方面,本发明实施例提供一种短句相似度的计算方法,包括:

获取待计算相似度的第一短句、第二短句,并分别对第一短句、第二短句进行分词处理;

根据第一短句、第二短句中的每个分词所包含的每个字的字向量,及通过预设近同义词库获得该分词的所有近同义词所包含的每个字的字向量,分别计算第一短句、第二短句中每个分词的TFIDF值及词向量;

分别对第一短句、第二短句的各个词向量及其TFIDF值对应的动态权重进行加权求和,得到第一短句、第二短句对应的句向量;

基于第一短句、第二短句的句向量,利用余弦相似度计算第一短句、第二短句的相似度。

在一实施例中,TFIDF值根据每个分词对语义的贡献比例进行计算;通过第一短句、第二短句中的每个分词所包含的每个字的字向量计算短句中每个分词的词向量;通过预设近同义词库获得该分词的所有近同义词所包含的每个字的字向量计算每个分词的词向量。

在一实施例中,通过以下公式计算TFIDF值对应的动态权重:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新方通信技术有限公司,未经北京新方通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110226692.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top