[发明专利]模型训练数据的选取方法及装置在审
申请号: | 202011027798.0 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112257756A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 宋振;谢蔚;唐亮;靳一 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/20 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 数据 选取 方法 装置 | ||
本发明公开了一种模型训练数据的选取方法及装置。其中,该方法包括:根据样本数据集中样本数据的特征值以及标签,确定样本数据对应的综合得分;根据综合得分对样本数据进行分组,以得到多个样本数据组,其中,样本数据组包括对应的分组标识;根据分组标识在对应的样本数据组中进行样本数据的采样,以得到目标训练数据;将目标训练数据输入至待训练模型中进行训练。本发明解决了由于相关技术中模型的训练过程中随机选取训练数据,而导致过拟合、模型预测结果准确度低的技术问题。
技术领域
本发明涉及数据预测技术领域,具体而言,涉及一种模型训练数据的选取方法及装置。
背景技术
在相关技术中,支撑采购建议,库内加工、补货,原材料加工,仓配履约等供应链业务场景,更好的实现数据赋能业务,降低成本,提升客户体验,设立了预测平台组,向企业中的事业部输出包括销量预测、运力预测、劳力预测等不同颗粒度的预测数据。大部分业务场景下的需求预测问题都可以转化为“特定条件下的商品销量预测”问题,以智能订货项目为例,该项目主要是为了向采购人员提供采购计算建议量服务,实现采购半自动下单。所以,该项目需要预测算法提供指定时间范围里某件商品的需求量,即提供“天、sku(StockKeeping Unit,库存量单位)”粒度的销量预测结果。
当前支撑该预测数据项目的主要算法是XGBboost(提升树可扩展的机器学习系统)。当前快驴To B(To Business,面向企业销售产品)业务需要预测sku数量交大,相对ToC(To Consumer,直接面向消费者销售产品)业务场景相对简单,因此当前的预测方案是利用每个场景中每个商品sku的样本数据,单独训练场景中每个商品对应的XGBoost模型。因为这种结构避免了其他商品sku的特征数据对算法的干扰,因此该方案比以仓库或品类为单位建立算法模型,可以得到更准确的预测结果。商品sku的数据分布有很大差异,比如对于高销商品的sku通常会有几百条样本数据,而一般销量商品的sku或者长尾商品可能只有几十条样本数据。在针对坏案例badcase分析的过程中发现以下问题:
(1)虽然在最小粒度(sku)上建模可以迅速优化某些案例case,但因为所有模型共用一套超参数,对于样本稀疏的sku会出现过拟合的问题;
(2)对于数据量较大的商品的sku,还是存在该sku内部“异常”数据对预测值的干扰问题,这种异常并非针对某个特征值,而是指该样本点相对于整体的相似程度较低。例如:某些商品属于季节性商品,可能会在一定期间内具有更高的销量,但是因为整体样本数据(取过去540天)对这种周期包含的不多,同时其他时间段的促销或其他特征(如天气、节假日等)导致的销量提升也会使模型对周期的判断造成干扰,导致模型降低了周期特征重要性,因此最终得到的预测结果很可能趋向于取整体数据的平均销量,没有很好的反映出重要特征的影响;
通过增加模型容量和数据增强可以一定程度上优化问题,但代价是模型训练时长增加,也有可能引入过拟合问题。以上问题本质是大部分基于特征的机器学习模型对样本数据的采样是随机的,以XGBoost为例,虽然模型在生成新的CART树的时候会抽取部分特征列和样本点以起到减小过拟合的作用,但是选取依然是随机的,没有规律性。对于其他训练模型同样存在该问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种模型训练数据的选取方法及装置,以至少解决由于相关技术中模型的训练过程中随机选取训练数据,而导致过拟合、模型预测结果准确度低的技术问题。
根据本发明实施例的一个方面,提供了一种模型训练数据的选取方法,包括:根据样本数据集中样本数据的特征值以及标签,确定所述样本数据对应的综合得分;根据所述综合得分对所述样本数据进行分组,以得到多个样本数据组,其中,所述样本数据组包括对应的分组标识;根据所述分组标识在对应的样本数据组中进行样本数据的采样,以得到目标训练数据;将所述目标训练数据输入至待训练模型中进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011027798.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:混砂机构及3D打印机
- 下一篇:一种无线耳机充电盒上胶装磁铁装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置