[发明专利]数据处理方法、装置、电子设备及存储介质在审
申请号: | 201910894670.5 | 申请日: | 2019-09-20 |
公开(公告)号: | CN112541776A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 袁德东 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 李娜 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 | ||
本公开关于一种数据处理方法、装置、电子设备及存储介质。其中方法包括:获取待处理视频对应的多个用户行为日志,分别从每个用户行为日志中提取特征数据;所述特征数据包括特征类别;针对每个特征类别,确定当前特征类别的有效度,以及确定当前特征类别的重要度;获取有效度满足预设的第一阈值条件且重要度满足预设的第二阈值条件的特征类别,将获取的特征类别作为所述待处理视频的代表特征类别;所述代表特征类别作为在利用所述待处理视频训练反馈预估模型时所使用的特征类别。本公开一方面代表特征类别相对于全部特征数据的数据量更小,因此能够提高模型训练的效率;另一方面代表特征类别在模型训练中的作用更大,因此利用代表特征类别进行训练能够提高模型的准确性。
技术领域
本公开涉及互联网技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的飞速发展,用户越来越依赖于通过网络获取各种信息。各商家为了推广商品,通常通过互联网进行视频(如广告视频)投放。当用户请求时向用户推荐商家投放的视频。
在视频推荐场景下,通过反馈预估模型预估各种反馈信息的技术是非常重要的。在用户的一次请求中,可以通过反馈预估模型预估各视频的点击率、转化率等反馈信息,视频投放引擎根据这些反馈信息选择合适的视频推荐给用户。
LR(Logistic Regression,逻辑回归)模型可以作为一种反馈预估模型。但是随着用户数量的迅速增加,用户行为日志的数据存在一个非常明显的特性:场景稀疏,数据海量。场景稀疏即用户在不同场景下的行为是稀疏的,例如一个用户只会对海量的商品视频库中很小一部分视频产生行为,那这些行为记录就是稀疏的。数据海量即用户的行为数据是海量的,例如用户的每一次滑动、点击都会产生一次记录,这就导致每天记录的数据量非常高。针对这种情况LR模型已经不再能够满足需求。因此考虑到DNN模型相对于LR模型更有更好的泛化能力,出现了使用DNN(Deep NeuralNetworks,深度神经网络)模型作为反馈预估模型。
在相关技术中,在对DNN模型进行训练时,利用样本视频对应的用户行为日志中的全部特征数据进行训练。但是,由于数据量大,且DNN模型训练本身相对LR模型要慢,因此模型训练效率较低,并且盲目地利用特征数据进行训练还会导致模型的准确性较低。
发明内容
本公开提供一种数据处理方法、装置、电子设备及存储介质方法、装置及系统,以至少解决相关技术中模型训练效率较低、模型的准确性较低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种数据处理方法,包括:
获取待处理视频对应的多个用户行为日志,分别从每个用户行为日志中提取特征数据;所述特征数据包括特征类别,所述待处理视频为用于训练反馈预估模型的视频;
针对每个特征类别,确定当前特征类别的有效度,以及确定当前特征类别的重要度;所述有效度用于表征所述当前特征类别与所述反馈预估模型预估的反馈参数的关联程度;所述重要度用于表征所述当前特征类别与所述反馈预估模型对应的曲线下面积AUC参数的关联程度;
获取有效度满足预设的第一阈值条件且重要度满足预设的第二阈值条件的特征类别,将获取的特征类别作为所述待处理视频的代表特征类别;所述代表特征类别作为在利用所述待处理视频训练反馈预估模型时所使用的特征类别。
可选地,所述确定当前特征类别的有效度步骤包括:计算所述当前特征类别的覆盖率,将所述覆盖率作为所述当前特征类别的有效度;所述覆盖率用于表征所述当前特征类别在所述多个用户行为日志中出现的概率;所述有效度满足预设的第一阈值条件具体为所述覆盖率大于预设的覆盖率阈值。
可选地,所述计算所述当前特征类别的覆盖率步骤包括:获取所述当前特征类别在所述多个用户行为日志中出现的次数,以及所述多个用户行为日志的数量;依据所述当前特征类别在所述多个用户行为日志中出现的次数和所述多个用户行为日志的数量,计算所述当前特征类别的覆盖率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910894670.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种射频指标测量方法和装置
- 下一篇:一种信息处理方法、网络节点和终端