[发明专利]基于预训练语言模型的相似语句生成方法和装置在审
申请号: | 202110270871.5 | 申请日: | 2021-03-12 |
公开(公告)号: | CN113807074A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 高臻;闫慧丽;顾松庠 | 申请(专利权)人: | 京东科技控股股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/211;G06F40/30;G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 韩海花 |
地址: | 100176 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 训练 语言 模型 相似 语句 生成 方法 装置 | ||
1.一种基于预训练语言模型的相似语句生成方法,其特征在于,包括以下步骤:
获取待处理语句;
将所述待处理语句输入已训练的生成模型,获取多个候选相似语句;
根据所述待处理语句和所述多个候选相似语句,生成多个判别语句对;
将所述多个判别语句对输入已训练的判别模型,获取判别结果,以及根据所述判别结果从所述多个候选相似语句中获取目标相似语句。
2.如权利要求1所述的方法,其特征在于,所述将所述待处理语句输入已训练的生成模型,获取多个候选相似语句,包括:
对所述待处理语句进行编码,获取编码向量;
对所述编码向量进行解码处理,采用自回归方式生成候选相似语句;其中,获取每个候选相似字的概率分布,并从概率最高的前N个候选相似字中随机采样一个候选相似字字作为目标候选相似字,其中,N为正整数,根据所述目标候选相似字生成所述候选相似语句。
3.如权利要求1所述的方法,其特征在于,所述将所述多个判别语句对输入已训练的判别模型,获取判别结果,包括:
对每个所述判别语句对进行编码,获取多个判别向量;
对每个所述判别向量进行预测,获取所述待处理语句和每个所述候选相似语句之间的相似度。
4.如权利要求1所述的方法,其特征在于,在所述将所述待处理语句输入已训练的生成模型之前,还包括:
获取通用领域相似问题数据集;
将所述通用领域相似问题数据集输入预训练语言模型进行训练,获取第一训练相似语句,通过损失函数计算所述第一训练语句和第一标准语句之间的第一误差,调整所述预训练语言模型的参数直到所述第一误差小于预设阈值,生成候选生成模型;
获取目标领域相似问题数据集;
将所述目标领域相似问题数据集输入候选生成模型进行训练,获取第二训练相似语句,通过损失函数计算所述第二训练语句和第二标准语句之间的第二误差,调整所述候选生成模型的参数直到所述第二误差小于预设阈值,生成所述已训练的生成模型。
5.如权利要求1所述的方法,其特征在于,在所述将所述多个判别语句对输入已训练的判别模型之前,还包括:
获取相似语句对数据集;
将所述相似语句对数据集输入基于BERT的双向编码表示模块进行训练,生成候选判别模型;
获取目标领域的相似语句对正样本和负样本;
将所述相似语句对正样本和负样本输入所述候选判别模型进行训练,生成所述已训练的判别模型。
6.一种基于预训练语言模型的相似语句生成装置,其特征在于,包括:
第一获取模块,用于获取待处理语句;
第一处理模块,用于将所述待处理语句输入已训练的生成模型,获取多个候选相似语句;
第一生成模块,用于根据所述待处理语句和所述多个候选相似语句,生成多个判别语句对;
第二处理模块,用于将所述多个判别语句对输入已训练的判别模型,获取判别结果;
第二获取模块,用于根据所述判别结果从所述多个候选相似语句中获取目标相似语句。
7.如权利要求6所述的装置,其特征在于,所述第一处理模块,具体用于:
对所述待处理语句进行编码,获取编码向量;
对所述编码向量进行解码处理,采用自回归方式生成候选相似语句;其中,获取每个候选相似字的概率分布,并从概率最高的前N个候选相似字中随机采样一个候选相似字字作为目标候选相似字,其中,N为正整数,根据所述目标候选相似字生成所述候选相似语句。
8.如权利要求6所述的装置,其特征在于,所述第二处理模块,具体用于:
对每个所述判别语句对进行编码,获取多个判别向量;
对每个所述判别向量进行预测,获取所述待处理语句和每个所述候选相似语句之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技控股股份有限公司,未经京东科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110270871.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于区块链的不动产信息管理方法和装置
- 下一篇:图像中的分层多类曝光缺陷分类