[发明专利]模型训练方法、推荐方法、装置、电子设备和存储介质在审
申请号: | 202111225950.0 | 申请日: | 2021-10-21 |
公开(公告)号: | CN114117198A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 刘文哲;金长虎 | 申请(专利权)人: | 北京快乐茄信息技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/62 |
代理公司: | 北京善任知识产权代理有限公司 11650 | 代理人: | 李梅香 |
地址: | 100193 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 推荐 装置 电子设备 存储 介质 | ||
1.一种模型训练方法,其特征在于,所述方法包括:
接收第一模型发送的特征筛选参数,其中,所述第一模型是采用离线训练样本和所述离线训练样本的标签数据离线训练的,其中,所述特征筛选参数指示:所述离线训练样本的M个特征中对所述第一模型的权重影响最大的N个特征;所述M大于所述N,且所述N为大于或等于1的正整数,所述M为大于或等于2的正整数;
根据所述特征筛选参数,选择所述N个特征对应的在线训练样本;
获取所述第一模型基于所述在线训练样本输出的第一预测值;
以所述第一预测值和所述在线训练样本为训练数据在线训练第二模型。
2.根据权利要求1所述的方法,其特征在于,所述离线训练样本和/或所述在线训练样本中的特征包括以下至少之一:图像特征、视频特征、用户特征。
3.根据权利要求1所述的方法,其特征在于,所述以所述第一预测值和所述在线训练样本为训练数据在线训练第二模型,包括:
获取所述第二模型基于所述在线训练样本输出的第二预测值;
根据所述在线训练样本的标签数据和所述第二预测值,确定所述第二模型的损失;
根据所述第一预测值和所述第二预测值,确定蒸馏损失;
根据所述第二模型的损失、所述蒸馏损失和损失比例,更新所述第二模型的网络参数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一预测值和所述第二预测值,确定蒸馏损失,包括:
获取所述第一预测值的回归值;其中,所述第一预测值的回归值是对所述第一预测值进行逻辑回归处理得到的值;
对所述第二预测值进行逻辑回归处理,得到所述第二预测值的回归值;
根据所述第一预测值的回归值和所述第二预测值的回归值,确定所述蒸馏损失。
5.一种推荐方法,其特征在于,所述方法包括:
获取权利要求1至4任一项所述模型训练方法得到的第二模型;
根据第一模型发送的特征筛选参数,从待推荐内容的内容特征和目标用户的用户特征,选择N个特征对应的目标特征;
将所述N个特征对应的所述在线目标特征输入至所述第二模型,得到所述第二模型输出的概率值;
根据所述概率值,确定是否将所述待推荐内容推荐给所述目标用户。
6.一种模型训练装置,其特征在于,所述装置包括:
第一获取模块,用于接收第一模型发送的特征筛选参数,其中,所述第一模型是采用离线训练样本和所述离线训练样本的标签数据离线训练的,其中,所述特征筛选参数指示:所述离线训练样本的M个特征中对所述第一模型的权重影响最大的N个特征;所述M大于所述N,且所述N为大于或等于1的正整数,所述M为大于或等于2的正整数;
第一选择模块,用于根据所述特征筛选参数,选择所述N个特征对应的在线训练样本;
第二获取模块,用于获取所述第一模型基于所述在线训练样本输出的第一预测值;
训练模块,用于以所述第一预测值和所述在线训练样本为训练数据在线训练第二模型。
7.根据权利要求6所述的装置,其特征在于,所述离线训练样本和/或所述在线训练样本中的特征包括以下至少之一:图像特征、视频特征、用户特征。
8.根据权利要求6所述的装置,其特征在于,所述训练模块,还用于:
获取所述第二模型基于所述在线训练样本输出的第二预测值;
根据所述在线训练样本的标签数据和所述第二预测值,确定所述第二模型的损失;
根据所述第一预测值和所述第二预测值,确定蒸馏损失;
根据所述第二模型的损失、所述蒸馏损失和损失比例,更新所述第二模型的网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京快乐茄信息技术有限公司,未经北京快乐茄信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111225950.0/1.html,转载请声明来源钻瓜专利网。