[发明专利]一种短文本语义相似度度量方法、系统及装置在审
申请号: | 202110892292.4 | 申请日: | 2021-08-04 |
公开(公告)号: | CN113761935A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 江豪;肖龙源;邹辉;李威 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 蔡稷元 |
地址: | 361009 福建省厦门市软件*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 语义 相似 度量 方法 系统 装置 | ||
1.一种短文本语义相似度度量系统,其特征在于,包括:
向量转化模块,用于将待匹配的短文本A和短文本B分别转化为向量A1和向量B1;
特征强化模块,用于将所述向量A1和所述向量B1分别转化为特征增强向量A2和特征增强向量B2;
特征提取模块,用于根据所述特征增强向量A2和所述特征增强向量B2得到全局最大池化向量C和全局平均池化向量D;
输出模块,用于根据所述全局最大池化向量C和所述全局平均池化向量D得到相似度预测结果。
2.根据权利要求1所述的短文本语义相似度度量系统,其特征在于,所述向量转化模块包括:
序号矩阵转化模块,用于将短文本转化为序号矩阵;
词嵌入模块,用于将所述序号矩阵转化为向量。
3.根据权利要求1所述的短文本语义相似度度量系统,其特征在于,所述特征强化模块包括:
特征交互模块,用于基于注意力机制,得到注意力权重,并将所述向量A1乘以所述注意力权重,得到加权向量A1',将所述向量B1乘以所述注意力权重,得到加权向量B1';
第一特征融合模块,用于根据所述向量A1和所述加权向量A1'得到所述特征增强向量A2,根据所述向量B1和所述加权向量B1'得到所述特征增强向量B2。
4.根据权利要求3所述的短文本语义相似度度量系统,其特征在于,所述注意力机制为局部注意力机制。
5.根据权利要求3所述的短文本语义相似度度量系统,其特征在于,所述特征增强向量的计算方法为:A2=[A1,A1',A1-A1',A1+A1',A1*A1'],B2=[B1,B1',B1-B1',B1+B1',B1*B1']。
6.根据权利要求1所述的短文本语义相似度度量系统,其特征在于,所述特征提取模块包括:
相似度矩阵生成模块,用于根据所述特征增强向量A2和所述特征增强向量B2得到相似度矩阵;
卷积池化模块,用于根据所述特征增强向量A2、所述特征增强向量B2和所述相似度矩阵得到所述全局最大池化向量C和所述全局平均池化向量D。
7.根据权利要求1所述的短文本语义相似度度量系统,其特征在于,所述输出模块包括:
第二特征融合模块,用于根据全局最大池化向量和全局平均池化向量得到全局特征增强向量。
8.根据权利要求1所述的短文本语义相似度度量系统,其特征在于,包括EMBED层、BN层、Attention层、CNN层、GlobalAveragePool层、GlobalMaxPool层和MLP层。
9.一种短文本语义相似度度量方法,其特征在于,包括以下步骤:
将待匹配的短文本A和短文本B分别转化为向量A1和向量B1;
将所述向量A1和所述向量B1分别转化为特征增强向量A2和特征增强向量B2;
根据所述特征增强向量A2和所述特征增强向量B2得到全局最大池化向量C和全局平均池化向量D;
根据所述全局最大池化向量C和所述全局平均池化向量D得到相似度预测结果。
10.一种短文本语义相似度度量装置,其特征在于,包括:
输入端,用于输入待匹配的短文本A和短文本B;
计算端,加载有如权利要求1~8任一项所述的系统,用于计算所述短文本A和所述短文本B的语义相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110892292.4/1.html,转载请声明来源钻瓜专利网。