[发明专利]基于对比学习的相似句子搜索方法及装置在审
申请号: | 202310201470.3 | 申请日: | 2023-03-01 |
公开(公告)号: | CN116521820A | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 邹游;聂虎;何英杰 | 申请(专利权)人: | 特斯联科技集团有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30;G06F18/22;G06N3/0455;G06N3/09 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 尹倩倩 |
地址: | 101100 北京市通*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对比 学习 相似 句子 搜索 方法 装置 | ||
1.一种基于对比学习的相似句子搜索方法,其特征在于,所述方法包括:
接收来自用户的待搜索语句;
基于预训练好的句子相似特征提取模型,确定所述待搜索语句的第一特征以及句子库中的各个语句的第二特征;其中,所述句子相似特征提取模型为基于对比学习的自监督学习模型;
通过各个分布式计算节点,确定所述第一特征与所述句子库中的各个语句的第二特征的第一相似度;
基于在各个分布式计算节点上分别确定的多个第一相似度,确定与所述句子库中与所述待搜索语句相似的句子。
2.如权利要求1所述的基于对比学习的相似句子搜索方法,其特征在于,在所述基于预训练好的句子相似特征提取模型,确定所述待搜索语句的第一特征以及句子库中的各个语句的第二特征之前,所述方法还包括:
基于预设的句子库中的各个语句和预设的预训练方法,训练得到预训练好的Bert模型;其中,预设的预训练方法中包括对所述各个语句的预处理,所述预处理过程中包括:先对各个语句进行分词处理得到各个语句的分词序列,针对每个语句的分词序列中的不同长度的词语采用不同的百分比进行掩码处理;
基于所述预设的句子库中的各个语句、所述预训练好的Bert模型的参数和预设的对比学习损失函数,训练得到所述预训练好的句子相似特征提取模型。
3.如权利要求2所述的基于对比学习的相似句子搜索方法,其特征在于,所述预训练好的句子相似特征提取模型为MoCo模型中的encoder,所述基于所述预设的句子库中的各个语句、所述预训练好的Bert模型的参数和预设的对比学习损失函数,训练得到所述预训练好的句子相似特征提取模型,包括:
对同批次输入的各个目标语句分别进行词语重复以及同义词替换,确定各个目标语句的正样本;所述同批次输入的各个目标语句为所述预设的句子库中的目标语句;基于同批次输入的各个目标语句中与各个目标语句本身不同的其他样本,确定各个目标语句的负样本;并基于所述预训练好的Bert模型的参数,确定MoCo模型中的momentum encoder和encoder的初始参数值;
基于各个目标语句的正样本和负样本,以及所述momentum encoder和encoder的初始参数值以及所述预设的对比学习损失函数,训练得到最终的momentum encoder和encoder;基于所述最终的encoder对应的参数确定为预训练好的句子相似特征提取模型的参数。
4.如权利要求3所述的基于对比学习的相似句子搜索方法,其特征在于,
所述预设的对比学习损失函数为:其中,表示第i个目标语句的编码表示hi与第i个目标语句对应的第s个正样本的momentumencoder编码表示的相似度;表示第i个目标语句的编码表示hi与第i个目标语句对应的第p个正样本的encoder编码表示的相似度;表示第i个目标语句的编码表示hi与第i个目标语句对应的第j个负样本的momentum encoder编码表示的相似度;表示第i个目标语句的编码表示hi与第i个目标语句对应的第m个负样本的encoder编码表示的相似度,S表示第i个目标语句对应的正样本的总数量,N表示第i个目标语句对应的负样本的总数量,τ为可学习的温度系数。
5.如权利要求1所述的基于对比学习的相似句子搜索方法,其特征在于,所述基于在各个分布式计算节点上分别确定的多个第一相似度,确定与所述句子库中与所述待搜索语句相似的句子,包括:
通过各个分布式计算节点中的主节点获取在各个分布式计算节点的从节点上分别确定的多个第一相似度,并对所述多个第一相似度进行排序,基于排序小于预设阈值的第一相似度确定至少一个第二相似度;
基于所述第二相似度确定与所述句子库中与所述待搜索语句相似的句子。
6.如权利要求1所述的基于对比学习的相似句子搜索方法,其特征在于,所述确定所述第一特征与所述句子库中的各个语句的第二特征的第一相似度,包括:
基于faiss相似度搜索库,确定所述第一特征与所述句子库中的各个语句的第二特征的第一相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于特斯联科技集团有限公司,未经特斯联科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310201470.3/1.html,转载请声明来源钻瓜专利网。