[发明专利]基于专家统计特征的增量计算更新方法、电子设备、介质在审

专利信息
申请号: 202211017850.3 申请日: 2022-08-24
公开(公告)号: CN115438054A 公开(公告)日: 2022-12-06
发明(设计)人: 周婷婷;刘智;胡汉一;胡明睿;徐圣源;许浩 申请(专利权)人: 之江实验室
主分类号: G06F16/23 分类号: G06F16/23;G06F16/901;G06N20/00
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 邱启旺
地址: 310023 浙江省杭州市余*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 专家 统计 特征 增量 计算 更新 方法 电子设备 介质
【说明书】:

发明公开了一种基于专家统计特征的增量计算更新方法、电子设备、介质,本发明方法分为离线计算和在线计算,其中离线计算首先读取专家统计特征的配置信息;然后抽取历史数据的统计特征的用户统计关联信息;最后持久化历史数据的统计关联信息。在线计算首先读取专家统计特征的配置信息;然后抽取新增数据的统计特征的用户统计关联信息;同时读取历史数据持久化的用户统计关联信息;接下来基于历史和新增数据抽取得到的统计关联信息生成更新后的离线数据统计关联信息并执行持久化操作;最后基于更新后的离线数据的统计关联信息生成对应的统计特征。本发明方法针对低服务器资源的情况,仍然能够高效的输出统计特征。

技术领域

本发明涉及人工智能特征工程、统计变量计算与数据存储技术领域,尤其涉及一种基于专家统计特征的增量计算更新方法、电子设备、介质。

背景技术

对于人工智能技术而言,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。因此,特征工程在机器学习中占有相当重要的地位。在实际应用当中,特征工程阶段产生的数据和特征是机器学习成功的关键。现有的自动特征生成技术通过对低阶特征进行简单的转化和聚合生成数量庞大的新特征,然后对其中重要性高的特征予以保留,利用新特征进行模型再训练,是目前通用的做法,这一切均依赖于非常强大的计算资源。多数用户的计算资源并不充足,难以承载如此强大的计算量。因此,在传统模式中以其有限的计算资源为基础构造适当的样本特征为特征工程任务提出了新的挑战,而构造这类特征常常需要专家经验的介入。已有的专家经验特征通常可以分为静态特征和动态特征,即通过对简单的多个低阶特征进行组合和计算得到的特征,以及通过对简单的低阶特征在时空维度执行统计操作得到的特征。

常规特征统计计算过程中,静态特征通常采用直接的多个低阶特征执行计算逻辑即可以得到,而动态特征则需要针对部分历史数据或者全部历史数据进行统计计算获得。为了得到这些特征需要强大的计算资源或者需要较长的时间周期,这无形中增大了生成专家特征的计算量和巨大计算成本。

因此,亟需提出一种基于专家统计特征的增量计算更新方法,在针对低服务器资源的情况,仍然能够高效的输出统计特征。

发明内容

针对现有技术不足,本发明提出了一种基于专家统计特征的增量计算更新方法。

为实现上述技术目的,本发明的技术方案为:本发明实施例的第一方面提供了一种基于专家统计特征的增量计算更新方法,所述方法具体包括以下步骤:

(1)构建专家统计特征配置文件,所述专家统计特征配置文件中包括若干字段,其中第一字段的列名为统计型专家特征的名称,其余字段的列名包括统计型专家特征对应的统计计算类别、分组属性名、筛选条件关联属性名、筛选条件、执行统计操作的属性名、统计操作类型;

(2)读取步骤(1)构建的专家统计特征配置文件,将第一字段名作为主键,按统计型专家统计对应的统计计算类别对其余字段进行验证,再将通过验证的其余字段拼接成链表作为值组成哈希映射;

(3)离线生成历史数据的关联统计信息:根据步骤(2)得到的哈希映射抽取待生成的专家统计特征,依据步骤(2)中得到的值获取对应的专家统计特征的计算类别,根据统计型专家特征的计算类别分别保存统计型专家特征对应的历史数据的关联统计信息;

(4)持久化步骤(3)保存的历史数据的关联统计信息;

(5)在线生成新增数据的关联统计信息,根据步骤(2)得到的哈希映射抽取待生成的专家统计特征,依据步骤(2)中得到的值获取对应的专家统计特征的计算类别,根据统计型专家特征对应的统计计算类别分别保存统计型专家特征对应的新增数据的统计关联信息;

(6)更新历史关联统计信息,根据步骤(4)保存的历史数据的关联统计信息以及步骤(5)生成的新增数据的统计关联信息,更新对应的历史关联统计信息,以当前新增数据时间为新的历史数据时间节点,获得更新后的历史关联统计信息,并持久化作为新的历史数据统计关联信息;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211017850.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top