[发明专利]数据处理方法、装置、存储介质及处理器在审

专利信息
申请号: 201910491095.4 申请日: 2019-06-06
公开(公告)号: CN110288093A 公开(公告)日: 2019-09-27
发明(设计)人: 李玮巍;吴明璞;李刚毅 申请(专利权)人: 博彦科技股份有限公司
主分类号: G06N20/00 分类号: G06N20/00;G06F16/23;G06F16/2458
代理公司: 北京康信知识产权代理有限责任公司 11240 代理人: 赵囡囡
地址: 100193 北京市海淀区西*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 机器学习模型 更新数据 流数据 存储介质 历史数据 时间窗口 数据处理 处理器 更新 历史数据训练 对流数据 机器模型 自动更新 监测
【说明书】:

发明公开了一种数据处理方法、装置、存储介质及处理器。其中,该方法包括:监测流数据,确定流数据中的历史数据和更新数据,其中,更新数据处于更新时间窗口内,历史数据处于历史时间窗口内;根据历史数据训练历史机器学习模型;根据更新数据训练更新机器学习模型;根据历史机器学习模型和更新机器学习模型,生成有效机器学习模型,其中,有效机器学习模型用于对流数据进行处理。本发明解决了无法根据流数据对机器模型进行自动更新的技术问题。

技术领域

本发明涉及机器学习领域,具体而言,涉及一种数据处理方法、装置、存储介质及处理器。

背景技术

大数据具有规模性(volume)、多样性(variety)、高速性(velocity)和准确性(veracity)四个特点,其前期研究工作主要集中在规模性和多样性上展开,而目前广泛存在并应用的数据是像金融、交通等场景下产生的流式数据(即流数据)。但是,流数据不同于传统的静态数据形态,作为一种新型大数据的数据形态更多的体现了大数据要求的数据量大和实时性的特点。流数据需要我们从海量信息中更快的提取有价值的信息。因此,面向大数据的流分类挖掘研究显得尤为重要。流式数据分为稳定流数据和动态流数据,稳定流数据中的数据具有稳定独立同分布的特点,而在动态流数据中,不同数据批不总是独立同分布的,相邻两条数据之间也可能来自不同的分布(例如写字楼的周五至周一的每天门禁记录数,周五与周六分布不同,但周六与周日分布可能相同,而周日与周一分布不同。)因此会产生概念漂移。

目前的数据挖掘算法系统(即机器学习)大多数都是针对静态数据的,但是漂移时流数据中的数据分布发生变化,例如流数据中的历史数据和当前数据之间的数据分布差异较大,按照针对静态数据的方式建立的机器学习模型,本质上都不具有抵抗流式数据概念漂移的能力。

针对上述无法根据流数据对机器模型进行自动更新的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理方法、装置、存储介质及处理器,以至少解决无法根据流数据对机器模型进行自动更新的技术问题。

根据本发明实施例的一个方面,提供了一种数据处理方法,包括:监测流数据,确定所述流数据中的历史数据和更新数据,其中,所述更新数据处于更新时间窗口内,所述历史数据处于历史时间窗口内;根据所述历史数据训练历史机器学习模型;根据所述更新数据训练更新机器学习模型;根据所述历史机器学习模型和所述更新机器学习模型,生成有效机器学习模型,其中,所述有效机器学习模型用于对所述流数据进行处理。

进一步地,确定所述流数据中的历史数据包括:识别所述流数据的自然周期;根据所述自然周期确定所述历史时间窗口的长度;将在所述流数据中所述历史时间窗口采集的数据作为历史数据存入历史数据库。

进一步地,识别所述流数据的自然周期包括以下至少之一:识别所述流数据的来源特征,确定所述流数据的自然周期,其中,所述来源特征用于表示所述流数据中的数据对应的多个数据源,所述流数据的自然周期为多个所述数据源自然更新的周期的最小公倍数;识别所述流数据的数据分布特征,根据所述数据分布特征确定所述流数据的自然周期。

进一步地,确定所述流数据中的更新数据包括:根据所述流数据确定所述更新时间窗口的长度,其中,所述更新时间窗口的长度随所述更新数据的增加而增长的;将在所述流数据中所述更新时间窗口采集的数据作为所述更新数据存入更新数据库。

进一步地,在将所述流数据中所述更新时间窗口对应的数据存入更新数据库之后,所述方法还包括:监测所述更新时间窗口的长度;在所述更新时间窗口的长度达到所述历史时间窗口的长度的情况下,使用所述更新数据库替换所述历史数据库,并将所述更新数据库作为新的历史数据库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于博彦科技股份有限公司,未经博彦科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910491095.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top