[发明专利]文本相似度模型训练方法、文本相似度检测方法及装置在审
申请号: | 202110958349.6 | 申请日: | 2021-08-20 |
公开(公告)号: | CN113723070A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 杨洋;李锋;张琛;万化 | 申请(专利权)人: | 上海浦东发展银行股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/126;G06F40/279;G06N3/04 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 黄丽霞 |
地址: | 200001 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 模型 训练 方法 检测 装置 | ||
1.一种文本相似度模型训练方法,其特征在于,所述方法包括:
分别对用于文本相似度训练的第一文本样本和第二文本样本进行编码处理,得到对应的第一特征编码和第二特征编码;
通过所述第一特征编码和所述第二特征编码对孪生神经网络进行训练;
获取所述孪生神经网络训练后的损失,基于所述损失确定所述第一特征编码的第一扰动特征以及所述第二特征编码的第二扰动特征;
根据所述第一特征编码和对应的第一扰动特征以及所述第二特征编码和对应的第二扰动特征对所述孪生神经网络进行迭代训练;
重复执行上述获取所述孪生神经网络训练后的损失的步骤,直到所述损失最小时,得到用于文本相似度检测的文本相似度检测模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述损失确定所述第一特征编码的第一扰动特征以及所述第二特征编码的第二扰动特征,包括:
获取所述损失关于所述第一特征编码的第一导数,将所述第一导数确定为所述第一特征编码的第一扰动特征;
获取所述损失关于所述第二特征编码的第二导数,将所述第二导数确定为所述第二特征编码的第二扰动特征。
3.根据权利要求1所述的方法,其特征在于,所述获取所述孪生神经网络训练后的损失,包括:
获取所述孪生神经网络基于所述第一特征编码和所述第二特征编码,预测的所述第一文本样本和所述第二文本样本之间的相似度结果;
根据所述第一文本样本和所述第二文本样本之间的相似度结果,确定所述孪生神经网络训练后的损失。
4.根据权利要求3所述的方法,其特征在于,所述获取所述孪生神经网络基于所述第一特征编码和所述第二特征编码,预测的所述第一文本样本和所述第二文本样本之间的相似度结果,包括:
将所述第一特征编码输入所述孪生神经网络的第一分支网络,得到所述第一分支网络输出的第一识别结果;
将所述第二特征编码输入所述孪生神经网络的第二分支网络,得到所述第二分支网络输出的第二识别结果;
获取所述第一识别结果与所述第二识别结果之间的距离,将所述距离确定为所述第一文本样本和所述第二文本样本之间的相似度结果。
5.根据权利要求4所述的方法,其特征在于,所述获取所述第一识别结果与所述第二识别结果之间的距离,包括:
其中,Xh为第一识别结果,Xb为第二识别结果,ξ为常数,Dw则为指数距离。
6.根据权利要求5所述的方法,其特征在于,所述损失为对比损失;所述根据所述第一文本样本和所述第二文本样本之间的相似度结果,确定所述孪生神经网络训练后的损失,包括:
L(w,(Y,Xh,Xb)i)=(1-Y)×LD(Dwi)+Y×LS(Dwi);
LD(Dwi)=max(0,margin-Dwi)2;
LS(Dwi)=(Dwi)2;其中,m为样本数,w为模型参数,Y是数据标签,(Y,Xh,Xb)i是第i个样本示例,LS(Dwi)是相似的输入样本对的部分损失函数,LD(Dwi)是不同的输入样本对的部分损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海浦东发展银行股份有限公司,未经上海浦东发展银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110958349.6/1.html,转载请声明来源钻瓜专利网。