[发明专利]一种抽样时间粒度选取方法、装置、电子设备及存储介质在审
申请号: | 202011563707.5 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112612996A | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 任亮;傅雨梅;赵雅婕;罗刚 | 申请(专利权)人: | 北京知因智慧科技有限公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06Q10/06 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 刘凤 |
地址: | 100000 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 抽样 时间 粒度 选取 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种抽样时间粒度选取方法、装置、电子设备及存储介质,该方法包括:确定与时间窗口及第一时间粒度对应的第一时间粒度数据;确定与第一时间粒度数据对应的第一模型评价指标值;基于与第一时间粒度数据对应的第一模型评价指标值,从第一时间粒度中确定最优第一时间粒度;基于最优第一时间粒度,确定第二时间粒度;参照最优第一时间粒度的选取过程,从第二时间粒度中确定最优时间粒度。通过采用上述抽样时间粒度选取方法、装置、电子设备及存储介质,针对数据抽样的时间粒度可选范围较大的场景,可以更好地捕捉到数据的特性,避免了基于统一的抽样标准或者使用经验来决定抽样时间粒度而造成的忽略数据自身特点的问题。
技术领域
本申请涉及数据处理技术领域,尤其是涉及一种抽样时间粒度选取方法、装置、电子设备及存储介质。
背景技术
目前,传统模型(如经济金融模型)的建模数据通常为时间序列数据或者包含时间序列的面板数据,但是对于采用机器学习算法的机器学习模型(银行对公客户营销模型)而言,其与传统的经济金融模型不同的是,该模型采用机器学习算法,而非计量经济学的常规算法,数据通常是带有属性标签的非时间序列的不均衡数据。此时数据抽样通常依靠业务专家和建模人员的经验,根据可取样本的时间窗口以及固定时间窗口的样本数量等来决定。
上述现有的数据抽样方式一般是针对所有数据均以统一的抽样标准来进行数据抽取,或者使用经验来决定抽样时间粒度,上述数据抽样方式会忽略数据自身的特点,无法为后续模型训练提供优质的数据集。
发明内容
有鉴于此,本申请提供一种抽样时间粒度选取方法、装置、电子设备及存储介质,其目的是在数据抽样的时间粒度可选范围较大的场景下,可以更好地捕捉数据的特性,避免了统一的抽样标准应用于所有数据的问题。
第一方面,本申请实施例提供了一种抽样时间粒度选取方法,包括:
确定与时间窗口及第一时间粒度对应的第一时间粒度数据;
确定与第一时间粒度数据对应的第一模型评价指标值;
基于与第一时间粒度数据对应的第一模型评价指标值,从第一时间粒度中确定最优第一时间粒度;
基于最优第一时间粒度,确定第二时间粒度;
参照最优第一时间粒度的选取过程,从第二时间粒度中确定最优时间粒度。
可选的,第一时间粒度可包括多个第一时间粒度,第一时间粒度数据可包括按照多个第一时间粒度对时间窗口内的数据进行数据抽取而形成的多个第一时间粒度数据;
其中,确定与第一时间粒度数据对应的第一模型评价指标值,可包括:
将每个第一时间粒度数据分别代入预定模型,确定与每个第一时间粒度数据对应的第一模型评价指标值。
可选的,参照最优第一时间粒度的选取过程,从第二时间粒度中确定最优时间粒度,可包括:
确定与时间窗口及第二时间粒度对应的第二时间粒度数据;
确定与第二时间粒度数据对应的第二模型评价指标值;
基于与第二时间粒度数据对应的第二模型评价指标值,从第二时间粒度中确定最优时间粒度。
可选的,第二时间粒度可包括多个第二时间粒度,第二时间粒度数据可包括按照多个第二时间粒度对时间窗口内的待处理数据进行数据抽取而形成的多个第二时间粒度数据;
其中,确定与第二时间粒度数据对应的第二模型评价指标值,可包括:
将每个第二时间粒度数据分别代入预定模型,确定与每个第二时间粒度数据对应的第二模型评价指标值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知因智慧科技有限公司,未经北京知因智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011563707.5/2.html,转载请声明来源钻瓜专利网。