[发明专利]基于对比学习的相似句子搜索方法及装置在审
申请号: | 202310201470.3 | 申请日: | 2023-03-01 |
公开(公告)号: | CN116521820A | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 邹游;聂虎;何英杰 | 申请(专利权)人: | 特斯联科技集团有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30;G06F18/22;G06N3/0455;G06N3/09 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 尹倩倩 |
地址: | 101100 北京市通*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对比 学习 相似 句子 搜索 方法 装置 | ||
本发明涉及一种基于对比学习的相似句子搜索方法及装置,方法包括:接收来自用户的待搜索语句;基于预训练好的句子相似特征提取模型,确定所述待搜索语句的第一特征以及句子库中的各个语句的第二特征;其中,所述句子相似特征提取模型为基于对比学习的自监督学习模型;通过各个分布式计算节点,确定所述第一特征与所述句子库中的各个语句的第二特征的第一相似度;基于在各个分布式计算节点上分别确定的多个第一相似度,确定与所述句子库中与所述待搜索语句相似的句子。基于此,提高相似句子搜索的准确性以及进行相似句子的搜索的速度。
技术领域
本发明涉及人工智能技术领域,特别是涉及基于对比学习的相似句子搜索方法及装置。
背景技术
基于机器学习或深度学习的相似句子的搜索,通常没有标注数据,因此通常难以进行有监督的学习,使用无监督的方式进行相似句子的搜索,句向量的表示往往质量不高,导致相似句子的搜索准确性很难得到保证。且由于进行相似句子的搜索通常是海量搜索,因此,存在搜索耗时严重的问题。
因此,如何在没有标注数据的情况下,提高相似句子搜索的准确性以及进行相似句子的搜索的速度是目前的一个研究方向。
发明内容
本发明提供一种基于对比学习的相似句子搜索方法及装置,用以解决现有技术中句向量的表示往往质量不高,导致相似句子的搜索准确性很难得到保证,且由于进行相似句子的搜索通常是海量搜索,因此,存在搜索耗时严重的问题,实现提高相似句子搜索的准确性以及进行相似句子的搜索的速度。
一种基于对比学习的相似句子搜索方法,所述方法包括:接收来自用户的待搜索语句;基于预训练好的句子相似特征提取模型,确定所述待搜索语句的第一特征以及句子库中的各个语句的第二特征;其中,所述句子相似特征提取模型为基于对比学习的自监督学习模型;通过各个分布式计算节点,确定所述第一特征与所述句子库中的各个语句的第二特征的第一相似度;基于在各个分布式计算节点上分别确定的多个第一相似度,确定与所述句子库中与所述待搜索语句相似的句子。
在其中一个实施例中,在所述基于预训练好的句子相似特征提取模型,确定所述待搜索语句的第一特征以及句子库中的各个语句的第二特征之前,所述方法还包括:基于预设的句子库中的各个语句和预设的预训练方法,训练得到预训练好的Bert模型;其中,预设的预训练方法中包括对所述各个语句的预处理,所述预处理过程中包括:先对各个语句进行分词处理得到各个语句的分词序列,针对每个语句的分词序列中的不同长度的词语采用不同的百分比进行掩码处理;基于所述预设的句子库中的各个语句、所述预训练好的Bert模型的参数和预设的对比学习损失函数,训练得到所述预训练好的句子相似特征提取模型。
在其中一个实施例中,所述预训练好的句子相似特征提取模型为MoCo模型中的encoder,所述基于所述预设的句子库中的各个语句、所述预训练好的Bert模型的参数和预设的对比学习损失函数,训练得到所述预训练好的句子相似特征提取模型,包括:对同批次输入的各个目标语句分别进行词语重复以及同义词替换,确定各个目标语句的正样本;所述同批次输入的各个目标语句为所述预设的句子库中的目标语句;基于同批次输入的各个目标语句中与各个目标语句本身不同的其他样本,确定各个目标语句的负样本;并基于所述预训练好的Bert模型的参数,确定MoCo模型中的momentum encoder和encoder的初始参数值;基于各个目标语句的正样本和负样本,以及所述momentum encoder和encoder的初始参数值以及所述预设的对比学习损失函数,训练得到最终的momentum encoder和encoder;基于所述最终的encoder对应的参数确定为预训练好的句子相似特征提取模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于特斯联科技集团有限公司,未经特斯联科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310201470.3/2.html,转载请声明来源钻瓜专利网。