[发明专利]一种短句相似度的计算方法及系统在审
申请号: | 202110226692.1 | 申请日: | 2021-03-01 |
公开(公告)号: | CN112966521A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 孙譞;韩宗达;詹舒波;黄宇 | 申请(专利权)人: | 北京新方通信技术有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06F40/247;G06K9/62 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 刘静 |
地址: | 100089 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 短句 相似 计算方法 系统 | ||
1.一种短句相似度的计算方法,其特征在于,包括:
获取待计算相似度的第一短句、第二短句,并分别对第一短句、第二短句进行分词处理;
根据第一短句、第二短句中的每个分词所包含的每个字的字向量,及通过预设近同义词库获得该分词的所有近同义词所包含的每个字的字向量,分别计算第一短句、第二短句中每个分词的TFIDF值及词向量;
分别对第一短句、第二短句的各个词向量及其TFIDF值对应的动态权重进行加权求和,得到第一短句、第二短句对应的句向量;
基于第一短句、第二短句的句向量,利用余弦相似度计算第一短句、第二短句的相似度。
2.根据权利要求1所述的短句相似度的计算方法,其特征在于,TFIDF值根据每个分词对语义的贡献比例进行计算;通过第一短句、第二短句中的每个分词所包含的每个字的字向量计算短句中每个分词的词向量;通过预设近同义词库获得该分词的所有近同义词所包含的每个字的字向量计算每个分词的词向量。
3.根据权利要求2所述的短句相似度的计算方法,其特征在于,通过以下公式计算TFIDF值对应的动态权重:
TFIDFw=TFw*IDFw
其中,TFw表示分词w在语料库中的出现频率,IDFw表示分词w的区分能力。
4.根据权利要求3所述的短句相似度的计算方法,其特征在于,计算第一短句或第二短句的词向量的步骤,包括:
根据第一短句或第二短句中的每个分词所包含的每个字的字向量,通过预设近同义词库,构造第i个分词wi的近同义词词组{wi1,wi2..},将每个分词所包含的每个字的字向量进行平均后,得到分词wi以及其近同义词词组{wi1,wi2...}的词向量,然后将所有近同义词词组词向量的平均结果与分词wi的词向量按照预设比例的权重相加,得到分词wi最终的词向量vi*。
5.根据权利要求4所述的短句相似度的计算方法,其特征在于,通过以下公式计算句向量:
其中,TFIDFi表示第i个分词的TFIDF值对应的动态权重,表示第i个分词的词向量。
6.根据权利要求5所述的短句相似度的计算方法,其特征在于,通过以下公式计算第一短句、第二短句的相似度:
其中,vs1表示第一短句的句向量,vs2表示第二短句的句向量。
7.一种短句相似度的计算系统,其特征在于,包括:
预处理模块,用于获取待计算相似度的第一短句、第二短句,并分别对第一短句、第二短句进行分词处理;
基于字向量的TFIDF值及词向量计算模块,用于根据第一短句、第二短句中的每个分词所包含的每个字的字向量,及通过预设近同义词库获得该分词的所有近同义词所包含的每个字的字向量,分别计算第一短句、第二短句中每个分词的TFIDF值及词向量;
句向量计算模块,用于分别对第一短句、第二短句的各个词向量及其TFIDF值对应的动态权重进行加权求和,得到第一短句、第二短句对应的句向量;
相似度计算模块,用于基于第一短句、第二短句的句向量,利用余弦相似度计算第一短句、第二短句的相似度。
8.一种终端,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-6任一所述的短句相似度的计算方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-6任一所述的短句相似度的计算方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新方通信技术有限公司,未经北京新方通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110226692.1/1.html,转载请声明来源钻瓜专利网。