[发明专利]特征处理方法、装置、计算设备及介质在审
申请号: | 202111473771.9 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114139727A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 许鹏飞;李永刚;马雨浩;郑磊;蒋能学;郑玮 | 申请(专利权)人: | 杭州网易云音乐科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62;G06F16/9535 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 董晓盈 |
地址: | 310052 浙江省杭州市萧山区钱江世*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 处理 方法 装置 计算 设备 介质 | ||
本公开的实施方式提供了一种特征处理方法、装置、计算设备及介质,属于机器学习技术领域。本公开通过获取第一离线模型和用于训练第一离线模型的至少一个第一离线特征,从而在获取到对应于至少一个第一在线特征的在线样本数据后,基于至少一个第一离线特征来确定是否允许第一在线特征进入模型的训练过程,进而在至少一个第一离线特征中存在第一在线特征的情况下,将第一在线特征确定为用于训练第一离线模型的在线训练特征。通过上述过程,使得无需对在线样本数据进行累积即可实现特征准入,从而能够保证模型训练的实时性。
技术领域
本公开的实施方式涉及机器学习技术领域,更具体地,本公开的实施方式涉及一种特征处理方法、装置、计算设备及介质。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着机器学习的不断发展,在线学习作为一种可以提高模型训练实时性的方案,在模型训练过程中的应用越来越广泛。在通过在线学习训练模型的过程中,出现次数比较低的特征进入模型训练会导致模型的训练效果较差,因而,往往需要通过特征准入机制,过滤掉出现次数较低的特征,以保证模型的训练效果。
相关技术中,在实现特征准入机制时,是将线上实时样本先累积一段时间后,再对样本中各个特征出现的次数进行统计,从而将特征出现的历史次数以及这段时间内特征出现的次数的和,与设定的次数阈值进行比较,基于和值大于设定的次数阈值的特征,来对模型进行训练。
在上述实现过程中,需要将实时样本累积一段时间后才能进行特征准入,从而导致特征进行模型训练会有一定的延时,进而导致模型训练的实时性较差。
发明内容
鉴于相关技术中模型训练实时性较差的情况,本公开的实施方式至少提供一种特征处理方法、装置、计算设备及介质。
在本公开实施方式的第一方面中,提供了一种特征处理方法,该方法包括:
获取第一离线模型和用于训练第一离线模型的至少一个第一离线特征;
获取在线样本数据,在线样本数据对应于至少一个第一在线特征;
在至少一个第一离线特征中存在第一在线特征的情况下,将第一在线特征确定为用于训练第一离线模型的在线训练特征。
在本公开的一个实施例中,该方法还包括:
在至少一个第一离线特征中不存在第一在线特征的情况下,获取第一在线特征的出现次数;
在第一在线特征的出现次数大于设定次数阈值的情况下,将第一在线特征确定为用于训练第一离线模型的在线训练特征。
在本公开的一个实施例中,在至少一个第一离线特征中不存在第一在线特征的情况下,获取第一在线特征的出现次数,包括:
在至少一个第一离线特征中不存在第一在线特征的情况下,基于第一在线特征集合中所包括的在线特征以及各个在线特征的出现次数,获取第一在线特征的出现次数。
在本公开的一个实施例中,在至少一个第一离线特征中不存在第一在线特征的情况下,获取第一在线特征的出现次数之前,该方法还包括下述任一项:
在至少一个第一离线特征中不存在第一在线特征,且第一在线特征集合中不存在第一在线特征的情况下,将第一在线特征添加至第一在线特征集合中,并将第一在线特征的出现次数确定为1;
在至少一个第一离线特征中不存在第一在线特征,且第一在线特征集合中存在第一在线特征的情况下,在第一在线特征集合中,更新第一在线特征的出现次数。
在本公开的一个实施例中,获取第一离线模型和用于训练第一离线模型的至少一个第一离线特征,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州网易云音乐科技有限公司,未经杭州网易云音乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111473771.9/2.html,转载请声明来源钻瓜专利网。