[发明专利]一种句子语义相似度计算方法有效
申请号: | 201710537644.8 | 申请日: | 2017-07-04 |
公开(公告)号: | CN107291699B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 彭剑辉;郭建京 | 申请(专利权)人: | 湖南星汉数智科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市开福区*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 句子 语义 相似 计算方法 | ||
1.一种句子语义相似度计算方法,其特征在于,包括以下过程:
步骤1:通过深度学习模型分别对第一句子、第二句子进行特征提取,得到第一句子全局语义向量和第二句子全局语义向量;
通过特征工程分别对第一句子的单词、第二句子的单词进行特征提取,得到第一句子局部语义向量和第二句子局部语义向量;包括以下过程:
将第一句子每个单词与第二句子每个单词分别进行相似度计算,得到相似度矩阵;
基于相似度矩阵计算第一句子每个单词与第二句子每个单词的对齐参数;
利用对齐参数与单词的特征参数计算第一句子和第二句子的对齐特征,公式为:
FS1=∑ialigni*feai/∑ifeai
FT1=∑jalignj*feaj/∑jfeaj
其中,FS1表示第一句子的对齐特征,∑i表示对含有参数i的项进行求和,aligni表示第一句子中单词i的对齐参数,feai表示第一句子任一单词si的特征;FT1表示第二句子的对齐特征,∑j表示对含有参数j的项进行求和,alignj表示第二句子中单词j的对齐参数,feaj表示第二句子任一单词tj的特征;
利用第一句子中没有对齐的单词和第二句子中没有对齐的单词,分别计算第一句子的不对齐特征和第二句子的不对齐特征,公式为:
FS2=∑iunalignifeai/∑ifeai
FT2=∑junalignjfeaj/∑jfeaj
其中,FS2表示第一句子的不对齐特征,unaligni表示将第一句子中没有对齐的单词,feai表示第一句子任一单词si的特征,∑i表示对含有参数i的项进行求和;FT2表示第二句子的不对齐特征,unalignj表示将第二句子中没有对齐的单词,feaj表示第二句子任一单词tj的特征,∑j表示对含有参数j的项进行求和;
将第一句子的对齐特征和不对齐特征进行拼接,得到第一句子局部语义向量;将第二句子的对齐特征和不对齐特征进行拼接,得到第二句子局部语义向量;
步骤2:将第一句子全局语义向量与第一句子局部语义向量进行拼接,得到第一句子的一维特征向量;将第二句子全局语义向量与第二句子局部语义向量进行拼接,得到第二句子的一维特征向量;
步骤3:计算第一句子的一维特征向量与第二句子的一维特征向量之间的向量距离,根据向量距离得到第一句子与第二句子之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南星汉数智科技有限公司,未经湖南星汉数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710537644.8/1.html,转载请声明来源钻瓜专利网。