[发明专利]模型训练方法及装置、电子设备和介质有效
申请号: | 202110925460.5 | 申请日: | 2021-08-12 |
公开(公告)号: | CN113642740B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 马小龙 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京市汉坤律师事务所 11602 | 代理人: | 姜浩然;吴丽丽 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 电子设备 介质 | ||
1.一种用于信息推荐的模型训练方法,包括:
确定待训练模型的损失函数梯度的约束条件;
对所述损失函数梯度的多个参数分别进行离散化取值,以获得多个参数组,其中所述多个参数组中的每一个参数组包括所述多个参数中的每一个参数离散化取值所获得的相应参数值,所述多个参数组中的任意两个参数组之间至少一个参数的参数值不同,其中,所述多个参数包括用户对于待推荐信息的交互行为数据的模型预估值、以及用户对于所述待推荐信息的交互行为数据的样本标签;
通过参数寻优方法确定满足所述约束条件的第一梯度值集合,所述第一梯度值集合中的每一个梯度值与所述多个参数组分别对应;以及
基于所述用户对于所述待推荐信息的交互行为数据的样本标签对所述待训练模型进行训练,以基于所述第一梯度值集合确定每次训练过程所对应的梯度值进行反向传播,
其中,所述损失函数梯度的约束条件根据以下公式表示:
,
其中,表示为所述损失函数梯度,表示为所述模型预估值,表示为所述样本标签。
2.如权利要求1所述的方法,其中,对所述损失函数梯度的多个参数分别进行离散化取值,以获得多个参数组包括:
确定所述多个参数中的每一个参数的取值范围;以及
在相应的取值范围内,基于预设的采样间隔对所述多个参数分别进行离散化取值,以获得所述多个参数组。
3.如权利要求1所述的方法,其中,通过参数寻优方法确定满足所述约束条件的第一梯度值集合包括:
初始化以获得第一数量的梯度值集合,其中所述第一数量的梯度值集合中的每一个梯度值集合包括满足所述约束条件的多个梯度值,所述多个梯度值与所述多个参数组一一对应;
分别基于所述第一数量的梯度值集合对所述待训练模型进行预训练,以得到相应的模型指标;以及
将最优的模型指标所对应的梯度值集合作为所述第一梯度值集合。
4.如权利要求3所述的方法,其中,通过参数寻优方法确定满足所述约束条件的第一梯度值集合还包括:
执行以下操作一次或多次:
基于所述最优的模型指标所对应的梯度值集合中的多个梯度值生成新的第二数量的梯度值集合;
对所述新的第二数量的梯度值集合中的不满足所述约束条件的梯度值进行修正,以使其满足所述约束条件;
分别基于修正后的所述第二数量的梯度值集合对所述待训练模型进行预训练,以得到相应的模型指标;以及
确定最优的模型指标所对应的梯度值集合;
将所述最优的模型指标所对应的梯度值集合作为所述第一梯度值集合。
5.如权利要求4所述的方法,其中,对所述新的第二数量的梯度值集合中的不满足所述约束条件的梯度值进行修正包括:
确定最大梯度值以及所述参数寻优方法所对应的最小梯度变化单位;以及
基于所述最大梯度值以及所述最小梯度变化单位对不满足所述约束条件的梯度值进行修正。
6.如权利要求1所述的方法,其中,基于所述第一梯度值集合确定每次训练过程所对应的梯度值包括:
在每次训练过程中,在前向传播完成后基于所述第一梯度值集合、通过插值方法确定当前训练过程所对应的梯度值。
7.如权利要求1所述的方法,其中,所述损失函数梯度的约束条件进一步根据以下公式表示:
,
其中,分别用于表示模型预估值,分别用于表示样本标签值。
8.如权利要求3或4所述的方法,其中,所述模型指标包括由以下项所组成的组中的一个或多个:正逆序比、曲线下面积、均方根误差、平均绝对误差。
9.一种信息推荐方法,包括:
基于如权利要求1-8中任一项所述的方法所训练得到的模型获取预测的用户对于待推荐信息的交互行为数据;以及
基于所述交互行为数据对所述待推荐信息进行推荐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110925460.5/1.html,转载请声明来源钻瓜专利网。