[发明专利]语义相似度模型的训练方法、装置、电子设备及存储介质有效
申请号: | 202010399048.X | 申请日: | 2020-05-12 |
公开(公告)号: | CN111539220B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 李臻;李宇琨;孙宇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/20 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 相似 模型 训练 方法 装置 电子设备 存储 介质 | ||
1.一种语义相似度模型的训练方法,其特征在于,应用在参数精调阶段的训练中,包括:
获取待训练语义相似度模型要使用的目标领域;其中,所述语义相似度模型的初步结构为预训练阶段得到;
计算所述目标领域与已知的多个训练数据集中各所述训练数据集对应的应用领域的相关度;
根据目标领域与各所述训练数据集对应的应用领域的相关度,依次采用各所述训练数据集对所述语义相似度模型进行训练;其中,
根据目标领域与各所述训练数据集对应的应用领域的相关度,依次采用各所述训练数据集对所述语义相似度模型进行训练,包括:
根据所述目标领域与各所述训练数据集对应的应用领域的相关度,将所述多个训练数据集划分为高相关度训练数据集的集合和低相关度训练数据集的集合;
采用所述低相关度训练数据集的集合中的各所述训练数据集,依次对所述语义相似度模型进行训练;
采用所述高相关度训练数据集的集合中的各所述训练数据集,依次对所述语义相似度模型进行训练。
2.根据权利要求1所述的方法,其特征在于,采用所述低相关度训练数据集的集合中的各所述训练数据集,依次对所述语义相似度模型进行训练,包括:
根据所述目标领域与所述低相关度训练数据集的集合中的各所述训练数据集的对应的应用领域的相关度由低到高的顺序,依次采用对应的所述训练数据集,分别对所述语义相似度模型进行训练;或者
对所述低相关度训练数据集的集合中的各所述训练数据集进行随机排序;按照所述随机排序的顺序,依次采用对应的所述训练数据集,分别对所述语义相似度模型进行训练。
3.根据权利要求1所述的方法,其特征在于,根据所述目标领域与各所述训练数据集对应的应用领域的相关度,将所述多个训练数据集划分为高相关度训练数据集的集合和低相关度训练数据集的集合,包括:
将与所述目标领域的相关度最高的N个应用领域的所述训练数据集划分至所述高相关度训练数据集的集合;
将其他的所述训练数据集划分至所述低相关度训练数据集的集合。
4.根据权利要求3所述的方法,其特征在于,采用所述高相关度训练数据集的集合中的各所述训练数据集,依次对所述语义相似度模型进行训练,包括:
若N大于1,根据所述目标领域与所述高相关度训练数据集的集合中的各所述训练数据集的对应的应用领域的相关度由低到高的顺序,依次采用对应的所述训练数据集,分别对所述语义相似度模型进行训练。
5.一种语义相似度模型的训练装置,其特征在于,应用在参数精调阶段的训练中,包括:
获取模块,用于获取待训练语义相似度模型要使用的目标领域;其中,所述语义相似度模型的初步结构为预训练阶段得到;
计算模块,用于计算所述目标领域与已知的多个训练数据集中各所述训练数据集对应的应用领域的相关度;
训练模块,用于根据目标领域与各所述训练数据集对应的应用领域的相关度,依次采用各所述训练数据集对所述语义相似度模型进行训练;其中,
训练模块,包括:
划分单元,用于根据所述目标领域与各所述训练数据集对应的应用领域的相关度,将所述多个训练数据集划分为高相关度训练数据集的集合和低相关度训练数据集的集合;
第一训练单元,用于采用所述低相关度训练数据集的集合中的各所述训练数据集,依次对所述语义相似度模型进行训练;
第二训练单元,用于采用所述高相关度训练数据集的集合中的各所述训练数据集,依次对所述语义相似度模型进行训练。
6.根据权利要求5所述的装置,其特征在于,所述第一训练单元,用于:
根据所述目标领域与所述低相关度训练数据集的集合中的各所述训练数据集的对应的应用领域的相关度由低到高的顺序,依次采用对应的所述训练数据集,分别对所述语义相似度模型进行训练;或者
对所述低相关度训练数据集的集合中的各所述训练数据集进行随机排序;按照所述随机排序的顺序,依次采用对应的所述训练数据集,分别对所述语义相似度模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010399048.X/1.html,转载请声明来源钻瓜专利网。