[发明专利]模型训练方法、点击率确定方法、介质、装置和计算设备在审
申请号: | 202111262649.7 | 申请日: | 2021-10-28 |
公开(公告)号: | CN113902103A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 石佳影;许盛辉;潘照明 | 申请(专利权)人: | 网易传媒科技(北京)有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06Q10/04 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张娜;刘芳 |
地址: | 100193 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 点击率 确定 介质 装置 计算 设备 | ||
本公开公开了模型训练方法、点击率确定方法、介质、装置和计算设备。该模型训练方法包括:确定获取多个训练样本,训练样本包括样本多媒体的多个静态属性数据,静态属性数据表示样本多媒体自身的性质;获取训练样本对应的标签数据,标签数据用于表示样本多媒体的实际点击率等级;将训练样本输入点击率预测模型,得到训练输出点击率等级;根据标签数据和训练输出点击率等级,调整点击率预测模型,以得到训练完成的点击率预测模型。本公开采用多媒体的静态属性数据作为点击率的预测的依据,能够有效增加点击率预测的应用场景,不用依赖用户的点击行为进行建模分析,进一步增强训练得到的点击率预测模型的健壮性和稳定性。
技术领域
本公开的实施方式涉及多媒体技术领域,更具体地,本公开的实施方式涉及模型训练方法、点击率确定方法、介质、装置和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
多媒体的点击率是指当前多媒体被用户点击的次数和曝光给用户的次数的比值。多媒体的点击率能够体现用户对该多媒体的喜好以及系统推荐该多媒体的合理性。
多媒体的点击率是对待曝光的多媒体进行排序的参考数据。其中,目前预测多媒体的点击率的方法,均需要结合用户的点击行为,因此对于未曝光过的多媒体的点击率无法准确预测。
发明内容
在本上下文中,本公开的实施方式期望提供一种模型训练方法、点击率确定方法、介质、装置和计算设备,以解决目前无法对未曝光过的多媒体的点击率准确预测的问题。
在本公开实施方式的第一方面中,提供了一种模型训练方法,包括:获取多个训练样本,训练样本包括样本多媒体的多个静态属性数据,静态属性数据表示样本多媒体自身的性质;获取训练样本对应的标签数据,标签数据用于表示样本多媒体的实际点击率等级;将训练样本输入点击率预测模型,得到训练输出点击率等级;根据标签数据和训练输出点击率等级,调整点击率预测模型,以得到训练完成的点击率预测模型。
在本公开的一个实施例中,点击率预测模型为单分类模型,单分类模型的分类个数与点击率等级划分的个数相同,将训练样本输入点击率预测模型,得到训练输出点击率等级,包括:将训练样本输入点击率预测模型,得到不同点击率等级的概率值;确定概率值中最大概率值对应的点击率等级为训练输出点击率等级。
在本公开的另一实施例中,静态属性数据包括:样本多媒体的封面图像和样本多媒体的文本数据;将训练样本输入点击率预测模型,得到不同点击率等级的概率值,包括:将封面图像输入卷积神经网络,得到第一特征向量;将文本数据输入嵌入网络,得到第二特征向量;将第一特征向量和第二特征向量拼接后,得到拼接特征向量;将拼接特征向量输入全连接层,得到不同点击率等级的概率值。
在本公开的又一个实施例中,文本数据包括:标题数据、内容数据和关联数据,关联数据用于表示样本多媒体的质量,嵌入网络包括:词嵌入网络、预训练嵌入网络和查找嵌入网络,将文本数据输入嵌入网络,得到第二特征向量,包括:将标题数据输入词嵌入网络,得到第一子特征向量;将内容数据输入预训练嵌入网络,得到第二子特征向量;将关联数据输入查找嵌入网络,得到第三子特征向量;将第一子特征特征向量、第二子特征向量和第三子特征拼接后,得到第二特征向量。
在本公开的又一个实施例中,获取多个训练样本,包括:获取预设历史时间内曝光过的样本多媒体的曝光日志;对同一样本多媒体的曝光日志进行预处理,得到不重复的备用数据;在备用数据中筛选出属于预设样本词典的训练样本,预设样本词典用于表示样本多媒体的静态属性。
在本公开的又一个实施例中,获取预设历史时间内曝光过的样本多媒体的曝光日志,包括:每隔预设时间,获取预设历史时间内曝光过的样本多媒体的曝光日志,曝光日志是由多媒体库中的多媒体在曝光时产生的,多媒体库中的多媒体实时更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易传媒科技(北京)有限公司,未经网易传媒科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111262649.7/2.html,转载请声明来源钻瓜专利网。