[发明专利]数据处理方法和装置在审
申请号: | 201710272081.4 | 申请日: | 2017-04-24 |
公开(公告)号: | CN108734330A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 栾宏伟;胡壁;宋全旺;宋磊;杨冬越 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q30/02;G06F17/30 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预测模型训练 数据清洗 预测模型 数据处理 方法和装置 运算 机器学习 训练数据 运算过程 算法库 清洗 判决 | ||
本发明提供一种数据处理方法和装置。本发明的数据处理方法包括下列步骤:‑用机器学习法来训练数据清洗规则以进行数据清洗,并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断;‑从预测模型算法库中选择参与预测模型训练运算的预测模型;‑在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。
技术领域
本发明涉及计算机领域,尤其涉及一种数据处理方法和装置、电子设备及可读存储介质。
背景技术
销量预测是一种根据商品历史销量数量预测商品未来销量数据的方法,机器学习在销量预测中得到了广泛的应用,机器学习预测模型在进行训练之前需要对数据进行大量的数据清洗工作;预测过程中往往会选用多个预测模型,每个预测模型需要单独进行调优,然后将多个预测模型的预测结果进行综合作为商品最后的销量预测值。
概括而言,通过机器学习进行销量预测通常包括如下步骤:
-在训练预测模型前制定清洗规则。
-对每个商品使用多个预测方法进行预测,然后取近期预测效果最好的预测方法的预测结果作为预测值。
其中,在进行预测模型训练时,模型最优参数的微调有两种方法,一种是每隔一段时间搜索一次最优训练参数,另一种方法是每次训练之前搜索最优训练参数。
训练数据中有一部分数据可能由于系统故障,或由于特殊原因会体现出一些特征,比如明显极高或极小。训练过程中这一部分数据会使预测模型出现偏差,降低预测准确度,因此需要对所有这一部分数据进行过滤处理,即所谓的数据清洗。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
首先,数据清洗是很重要的一个工作,往往需要人为制定大量清洗规则,而且清洗规则需要随时间及业务进行调整,费时费力。而且很多数据不能得到及时清洗,因此会扭曲预测模型。
其次,由于要对每个商品使用多个预测方法进行预测,然后取近期预测效果最好的预测方法的预测结果作为预测值,这就需要对所有的预测算法都进行一遍计算,如果数据量比较巨大,计算资源会成为瓶颈。
此外,模型训练时模型最优参数的微调往往也需要算法进行多次运行,以找到最优参数,这同样会销耗大量计算资源。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法和装置、电子设备及可读存储介质,由此能够将以往的预测经验提取出来(这些经验包括如何进行数据筛选,如何进行模型选择,如何对具体模型进行参数调优),在以后的预测中加以利用,从而在提高预测准确率的同时减少计算量。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据处理方法。
根据本发明一种优选实施方式,本发明的数据处理方法包括下列步骤:
-用机器学习法来训练数据清洗规则以进行数据清洗,并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断;
-从预测模型算法库中选择参与预测模型训练运算的预测模型;
-在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。
在本发明中,优选的是,为了训练数据清洗判决模型,提供清洗库,所述清洗库中存放异常数据的特征,其中,异常数据的来源包括以下各项中的至少一项:历史异常数据、业务方反馈的新发现的异常数据、由所有数据清洗判决模型一致判断为异常数据的数据、或经一个或多个数据清洗判决模型判断为异常数据并经人工识别后确认为异常数据的可疑数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710272081.4/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理