[发明专利]应用于模型训练的样本获取方法及装置、设备、存储介质有效
申请号: | 201910851779.0 | 申请日: | 2019-09-05 |
公开(公告)号: | CN110533489B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 王星雅 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;A63F13/79 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 应用于 模型 训练 样本 获取 方法 装置 设备 存储 介质 | ||
本申请的实施例揭示了一种应用于模型训练的样本获取方法及装置。该方法包括:对数据源进行随机采样,获得训练样本集合;根据训练样本集合对模型进行训练,获得训练样本集合的预测错误率;根据预测错误率重新确定数据源的采样率,并按照重新确定的采样率对数据源进行采样,获得更新的训练样本集合;迭代执行根据更新的训练样本集合训练模型,并根据获得的预测错误率重新确定数据源的采样率,以及按照重新确定的采样率获得更新的训练样本集合的步骤;获取更新的训练样本集合为目标样本集合。本申请实施例的技术方案能够从数据源中选取与预测样本集合的特征分布相接近的目标样本集合,该目标样本集合用于对模型进行训练。
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种应用于模型训练的样本获取方法及装置、设备、计算机可读存储介质。
背景技术
随着互联网信息技术的飞速发展,互联网应用也越来越多,为了拓宽互联网应用的受众面,使得互联网应用能够为企业带来更高的收益,需要将互联网应用推广给更多的用户。
在互联网应用的推广初期,例如游戏应用,在缺少初始玩家的情况下,需要通过游戏推广获得的首批玩家的反馈数据作为样本来进行推广建模,或者以类型相似的游戏应用的玩家数据作为样本进行推广建模。由于游戏应用的推广建模往往需要大量的玩家数据,通过前一种方式进行推广建模的效果较好,但是用于推广建模的样本获取成本较高。虽然通过后一种方式进行推广建模能够容易地从类型相似的游戏应用中获得大量的样本,但由于这些游戏应用中的样本与当前游戏应用中的样本的特征分布并不完全相同,推广模型在实际预测时容易产生偏差,导致预测效果不佳。
因此,在互联网应用的推广初期,如何在降低推广建模的样本获取成本的同时保证推广模型的预测效果,是现有技术中亟待解决的问题。
发明内容
为了解决上述技术问题,本申请的实施例提供了一种应用于模型训练的样本获取方法、装置、设备以及计算机可读存储介质,本申请的实施例对样本进行获取的成本较低,并且利用本申请的实施例获取的样本进行推广建模得到的模型具有较好的预测效果。
其中,本申请所采用的技术方案为:
一种应用于模型训练的样本获取方法,包括:对数据源进行随机采样,获得训练样本集合;根据所述训练样本集合对模型进行训练,获得所述训练样本集合的预测错误率;根据所述预测错误率重新确定所述数据源的采样率,并按照重新确定的采样率对所述数据源进行采样,获得更新的训练样本集合;迭代执行根据更新的训练样本集合训练所述模型,并根据获得的预测错误率重新确定所述数据源的采样率,以及按照重新确定的采样率获得更新的训练样本集合的步骤;获取所述更新的训练样本集合为目标样本集合,所述目标样本集合用于对所述模型进行后续训练。
一种应用于模型训练的样本获取装置,包括:数据源采样模块,用于对数据源进行随机采样,获得训练样本集合;模型训练模块,用于根据所述训练样本集合对模型进行训练,获得所述训练样本集合的预测错误率;训练样本更新模块,用于根据所述预测错误率重新确定所述数据源的采样率,并按照重新确定的采样率对所述数据源进行采样,获得更新的训练样本集合;迭代执行模块,用于迭代执行根据更新的训练样本集合训练所述模型,并根据获得的预测错误率重新确定所述数据源的采样率,以及按照重新确定的采样率获得更新的训练样本集合的步骤;目标样本获取模块,用于获取所述更新的训练样本集合为目标样本集合,所述目标样本集合用于对所述模型进行后续训练。
一种应用于模型训练的样本获取设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的应用于模型训练的样本获取方法。
一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的应用于模型训练的样本获取方法。
本申请所采用的技术方案至少具有以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910851779.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种商业大数据分析系统
- 下一篇:一种线下受众信息采集系统及其实现方法