[发明专利]数据处理方法、装置、设备及存储介质有效
申请号: | 202110494782.9 | 申请日: | 2021-05-07 |
公开(公告)号: | CN113205217B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 孙建强 | 申请(专利权)人: | 上海一谈网络科技有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q40/02;G06N20/00;G06F9/50 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200233 上海市松江区漕河*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 设备 存储 介质 | ||
本发明公开了一种数据处理方法、装置、设备及存储介质,该数据处理方法用于用户行为预测模型数据的加载。针对现有的模型加载训练数据时,训练数据占用计算机内存过大,加载时间过长,导致模型训练效率低的问题,通过将与时间跨度相关的特征数据进行合并,减少输入模型的特征数,在保证模型预测精度没有损害的前提下大大降低训练数据所占的内存,缩短加载数据所消耗的时间,提高模型训练的效率。
技术领域
本发明属于互联网行业数据挖掘及算法的技术领域,尤其涉及一种用于用户模型数据加载的数据处理方法、装置、设备及存储介质。
背景技术
当前人工智能技术发展十分迅速,作为人工智能核心技术的深度学习,在越来越多的领域如互联网、消费信贷等领域的应用已经遥遥领先于传统方法。对深度学习模型的训练需要庞大的计算资源和计算数据,也就是需要大规模数据集。
在数据挖掘建模方面,所用的特征中有一类和时间相关的用户行为特征,用以描述该特征随时间变化的趋势,如过去15天、30天、60天用户在app消费的金额这种描述用户消费能力的特征。这类用户特征的数量与所关注的时间跨度数量有关。
当时间跨度较大时,不能更详细地描述时间跨度内用户的行为趋势。如过去15天用户消费金额为100元,但是无法获取“用户是在哪几天各消费多少元”这个信息;为描述用户行为特征趋势,需关注大量时间跨度该特征的取值。如此,在加载模型训练数据时,训练数据占用计算机内存过大,加载时间过长,拖慢了模型的训练速度。
另外,在加载模型训练数据时,通常通过实时加载来降低内存的消耗,但是每次加载只能加载数量很少的数据进行训练,而且实时数据加载会导致CPU和GPU频繁交互,GPU与CPU的频繁交互会降低GPU的训练工作效率,进一步拖慢模型的训练速度。
发明内容
本发明的目的是提供一种数据处理方法、装置、设备及存储介质,在保证模型预测精度没有损害的前提下大大降低训练数据所占的内存,缩短加载数据所消耗的时间。
为解决上述问题,本发明的技术方案为:
一种数据处理方法,用于用户行为预测模型数据的加载,该数据处理方法包括:
获取用户行为的历史数据,提取基于时间序列的用户行为数据;
基于用户行为上次发生距离当前时间间隔越小,用户行为再次发生概率越大的原则,将用户行为数据乘上一个随时间衰减的函数c(t),然后再求和∑c(t)a,用于表征该用户在该行为上的汇总特征;其中,c(t)=e-kt,k是衰减系数;
汇集各用户的汇总特征构成数据集,当用户行为预测模型需要加载训练数据时,将所述数据集作为训练数据载入用户行为预测模型。
根据本发明一实施例,衰减系数k的确定包括以下步骤:
A1:令历史用户行为数据为ahistory,距离当前时间间隔为t,当前时间的用户行为值为atoday,衰减系数k的初始值为0.01;
A2:计算每个用户的汇总特征valida=∑e-ktahistory;
A3:将用户数据按valida的降序排列,并均匀分为n组;
A4:计算各组用户的valida均值和atoday均值,得到两均值序列;
A5:计算两均值序列之间的相关系数;
A6:若相关系数大于0.85,则将valida作为相应用户的汇总特征;若相关系数小于等于0.85,则将衰减系数k乘上1.5后得到新的衰减系数k,重复步骤A2~A6。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海一谈网络科技有限公司,未经上海一谈网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110494782.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:柔性太阳能电池及其制作方法
- 下一篇:一种干态低温制备铁酸钴粉体的工艺方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理