[发明专利]特征选择方法和特征选择服务系统在审
申请号: | 202010551883.0 | 申请日: | 2020-06-17 |
公开(公告)号: | CN113298104A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 马驰;王冲;杜聪 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 张艳梅;冯德魁 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 选择 方法 服务 系统 | ||
本申请公开了一种特征选择方法,包括:获得原始样本;对所述原始样本进行复制,得到所述原始样本的复制样本,所述复制样本中的特征少于其对应的原始样本中的特征;将不同原始样本对应的复制样本中包含相同特征的复制样本分入同一个复制样本组;获得复制样本组的模型评估指标;根据所述复制样本组的模型评估指标,从所述原始样本中的特征中筛选出用于训练机器学习模型的目标特征。采用上述方法,解决了现有技术中针对大规模数据的特征空间进行特征选择效率较低的问题。
技术领域
本申请涉及计算机技术领域,具体涉及一种特征选择方法和一种特征选择服务系统。
背景技术
随着互联网技术的广泛应用,网络上产生的数据中包含大量有关联的特征。比如,广告场景中,会产生受众特征、广告特征、查询特征、场景特征等多种类型的特征,而每一类特征又包含自身丰富的特征,以受众特征为例,除了包括能够表明受众自身特性的属性特征外,还包含大量行为特征,行为特征从时间上又可以分为长期、中期、短期,从类型上可以包括点击、收藏、加购等,每个行为的条目(item)又包含若干属性(例如所属店铺、类目等),将这些特征叠加起来,获得的特征空间将是巨大的。
而减少特征空间中的特征具有重要的现实意义,例如,可以减少过拟合,提高采用这些特征训练出的模型的泛化能力,使模型获得更好的解释性,增强对特征和特征值之间的理解,加快模型的训练速度,提升在线推理的性能,节省存储开销等等。
现有技术中,进行特征选择的一种常用的做法是将某个特征掩盖(删除)后进行预测,观察模型评估指标(如曲线下面积AUC,Area Under Curve)下降的程度,该指标下降越多说明特征越重要。假设需要评估20个特征的重要性,传统的做法就是分别运行20次AUC任务,每次掩盖掉一个特征,最后分别计算AUC的下降程度。
但是这种特征选择方法,在特征规模庞大时,效率非常低。如何提高特征选择的效率,成为亟待解决的技术问题。
发明内容
本申请提供一种特征选择方法、装置、电子设备和存储设备,解决了现有技术中针对大规模数据的特征空间进行特征选择效率较低的问题。
本申请提供一种特征选择方法,包括:
获得原始样本;
对所述原始样本进行复制,得到所述原始样本的复制样本,所述复制样本中的特征少于其对应的原始样本中的特征;
将不同原始样本对应的复制样本中包含相同特征的复制样本分入同一个复制样本组;
获得复制样本组的模型评估指标;
根据所述复制样本组的模型评估指标,从所述原始样本中的特征中筛选出用于训练机器学习模型的目标特征。
可选的,所述对所述原始样本进行复制,得到所述原始样本的复制样本,所述复制样本中的特征少于其对应的原始样本中的特征,包括:
针对同一个原始样本,对所述原始样本的特征进行统计,获得所述原始样本的特征的第一数量;
对所述原始样本中指定的特征进行复制,获得所述第一数量的复制样本,其中,所述指定的特征比原始样本的特征少一个,同一个原始样本对应的复制样本去除的特征互不相同。
可选的,所述将不同原始样本对应的复制样本中包含相同特征的复制样本分入同一个复制样本组,包括:
将不同原始样本对应的复制样本中,去除相同特征的复制样本划分为一组,得到复制样本组。
可选的,所述获得复制样本组的模型评估指标,包括:
将复制样本组分成子复制样本组;
基于第二数量的子复制样本组分别进行机器学习,得到第二数量的第一混淆矩阵数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010551883.0/2.html,转载请声明来源钻瓜专利网。