[发明专利]基于专家统计特征的增量计算更新方法、电子设备、介质在审
申请号: | 202211017850.3 | 申请日: | 2022-08-24 |
公开(公告)号: | CN115438054A | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 周婷婷;刘智;胡汉一;胡明睿;徐圣源;许浩 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/901;G06N20/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 专家 统计 特征 增量 计算 更新 方法 电子设备 介质 | ||
本发明公开了一种基于专家统计特征的增量计算更新方法、电子设备、介质,本发明方法分为离线计算和在线计算,其中离线计算首先读取专家统计特征的配置信息;然后抽取历史数据的统计特征的用户统计关联信息;最后持久化历史数据的统计关联信息。在线计算首先读取专家统计特征的配置信息;然后抽取新增数据的统计特征的用户统计关联信息;同时读取历史数据持久化的用户统计关联信息;接下来基于历史和新增数据抽取得到的统计关联信息生成更新后的离线数据统计关联信息并执行持久化操作;最后基于更新后的离线数据的统计关联信息生成对应的统计特征。本发明方法针对低服务器资源的情况,仍然能够高效的输出统计特征。
技术领域
本发明涉及人工智能特征工程、统计变量计算与数据存储技术领域,尤其涉及一种基于专家统计特征的增量计算更新方法、电子设备、介质。
背景技术
对于人工智能技术而言,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。因此,特征工程在机器学习中占有相当重要的地位。在实际应用当中,特征工程阶段产生的数据和特征是机器学习成功的关键。现有的自动特征生成技术通过对低阶特征进行简单的转化和聚合生成数量庞大的新特征,然后对其中重要性高的特征予以保留,利用新特征进行模型再训练,是目前通用的做法,这一切均依赖于非常强大的计算资源。多数用户的计算资源并不充足,难以承载如此强大的计算量。因此,在传统模式中以其有限的计算资源为基础构造适当的样本特征为特征工程任务提出了新的挑战,而构造这类特征常常需要专家经验的介入。已有的专家经验特征通常可以分为静态特征和动态特征,即通过对简单的多个低阶特征进行组合和计算得到的特征,以及通过对简单的低阶特征在时空维度执行统计操作得到的特征。
常规特征统计计算过程中,静态特征通常采用直接的多个低阶特征执行计算逻辑即可以得到,而动态特征则需要针对部分历史数据或者全部历史数据进行统计计算获得。为了得到这些特征需要强大的计算资源或者需要较长的时间周期,这无形中增大了生成专家特征的计算量和巨大计算成本。
因此,亟需提出一种基于专家统计特征的增量计算更新方法,在针对低服务器资源的情况,仍然能够高效的输出统计特征。
发明内容
针对现有技术不足,本发明提出了一种基于专家统计特征的增量计算更新方法。
为实现上述技术目的,本发明的技术方案为:本发明实施例的第一方面提供了一种基于专家统计特征的增量计算更新方法,所述方法具体包括以下步骤:
(1)构建专家统计特征配置文件,所述专家统计特征配置文件中包括若干字段,其中第一字段的列名为统计型专家特征的名称,其余字段的列名包括统计型专家特征对应的统计计算类别、分组属性名、筛选条件关联属性名、筛选条件、执行统计操作的属性名、统计操作类型;
(2)读取步骤(1)构建的专家统计特征配置文件,将第一字段名作为主键,按统计型专家统计对应的统计计算类别对其余字段进行验证,再将通过验证的其余字段拼接成链表作为值组成哈希映射;
(3)离线生成历史数据的关联统计信息:根据步骤(2)得到的哈希映射抽取待生成的专家统计特征,依据步骤(2)中得到的值获取对应的专家统计特征的计算类别,根据统计型专家特征的计算类别分别保存统计型专家特征对应的历史数据的关联统计信息;
(4)持久化步骤(3)保存的历史数据的关联统计信息;
(5)在线生成新增数据的关联统计信息,根据步骤(2)得到的哈希映射抽取待生成的专家统计特征,依据步骤(2)中得到的值获取对应的专家统计特征的计算类别,根据统计型专家特征对应的统计计算类别分别保存统计型专家特征对应的新增数据的统计关联信息;
(6)更新历史关联统计信息,根据步骤(4)保存的历史数据的关联统计信息以及步骤(5)生成的新增数据的统计关联信息,更新对应的历史关联统计信息,以当前新增数据时间为新的历史数据时间节点,获得更新后的历史关联统计信息,并持久化作为新的历史数据统计关联信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211017850.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高精度自动化铺布系统
- 下一篇:一种基于水果原料指标预测果汁品质的方法