[发明专利]一种数据处理方法及相关装置在审

申请号：	202210223399.4	申请日：	2022-03-09
公开（公告）号：	CN114611690A	公开（公告）日：	2022-06-10
发明（设计）人：	杨帅;刘冲;张立鑫	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04;G06F16/435
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	朱佳
地址：	518044 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法相关装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及计算机技术领域，提供一种数据处理方法及相关装置，用以提高模型训练速度，该方法包括：基于样本数据集合，采用迭代方式，对初始点击率预估模型进行剪枝‑重生处理，获得目标点击率预估模型，其中，在一次迭代过程中，对当前的点击率预估模型进行剪枝处理后，对剪枝处理后得到的点击率预估模型进行训练，以及对当前的点击率预估模型进行重生处理，对重生处理后得到的点击率预估模型进行训练。这样，可以得到轻量级的目标点击率预估模型，减少模型占用的内存，提高模型训练速度。

技术领域

本申请涉及计算机技术领域，提供一种数据处理方法及相关装置。

背景技术

随着网络和计算机技术的不断发展，越来越多的目标对象可以通过互联网获取多媒体信息，多媒体信息包括图文、公众号、视频、新闻等。为了向每个目标对象更精准的展示对应的多媒体信息，通常采用机器学习模型对多媒体信息的点击率进行预估。

相关技术中，为了解决由于模型结构复杂导致的训练消耗过大、训练效率低等问题，通常通过剪枝策略，获得轻量级的点击率预测模型。其中，剪枝策略是指在模型训练过程中，按照设定的参数删减比例，不断对初始点击率预测模型中包含的某些参数进行删减。

然而，采用上述剪枝策略，可能会造成某些重要的权重参数被误减，影响模型性能，导致训练得到的模型对目标对象偏好的感知出现偏差，使得模型输出的预测点击率不准确。

发明内容

本申请实施例提供一种数据处理方法及相关装置，用以提高模型训练速度，同时提高模型准确性。

第一方面，本申请实施例提供一种数据处理方法，包括：

获取样本数据集合和初始点击率预估模型；

基于所述样本数据集合，采用迭代方式，对所述初始点击率预估模型进行剪枝-重生处理，获得目标点击率预估模型；其中，在一次迭代过程中，执行以下操作：

从当前保留的各保留模型参数中，确定至少一个待删除模型参数，并基于所述至少一个待删除模型参数，对当前的点击率预估模型进行剪枝处理，以及基于所述样本数据集合，对剪枝处理后得到的点击率预估模型进行训练；