[发明专利]一种深度合成特征的特征选择方法及装置有效
申请号: | 202310154323.5 | 申请日: | 2023-02-23 |
公开(公告)号: | CN115840885B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 林以明;周鹏程 | 申请(专利权)人: | 青岛创新奇智科技集团股份有限公司 |
主分类号: | G06F18/211 | 分类号: | G06F18/211;G06F18/2113 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 吕爱霞 |
地址: | 266000 山东省青岛市即墨区经*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 合成 特征 选择 方法 装置 | ||
本申请提供一种深度合成特征的特征选择方法及装置,涉及数据处理技术领域,该方法包括:获取候选特征集和初始化的已选择特征集;对候选特征集进行特征选择,得到当前迭代轮次的目标特征集;将目标特征集中的所有特征加入已选择特征集,得到中间特征集;对中间特征集进行特征剪枝处理得到目标已选特征集;输出最终得到的目标已选特征集。可见,实施这种实施方式,能够根据特征选择和剪枝方法,减少需要计算的特征数量,从而节约了计算资源和存储资源,并有效缩短了计算时间。
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种深度合成特征的特征选择方法及装置。
背景技术
目前,很多场景的数据以类似于关系型数据库表格的形式记录,为了利用这些数据构建机器学习模型,需要通过自动化的深度特征合成方法进行特征合成。在全部合成特征中,一般仅有小部分特征对构建机器学习模型有效,大部分剩余特征的效用很低,但为了筛选出有效特征,现有技术是将候选特征的数值计算出来,然后评估它们在模型中的效果,从中筛选出高效特征。然而,在实践中发现,现有方法需要先计算特征的数值再进行筛选,需要耗费大量计算资源和大量存储资源,且计算时间长。
发明内容
本申请实施例的目的在于提供一种深度合成特征的特征选择方法及装置,能够根据特征选择和剪枝方法,减少需要计算的特征数量,从而节约了计算资源和存储资源,并有效缩短了计算时间。
本申请实施例第一方面提供了一种深度合成特征的特征选择方法,包括:
获取候选特征集和初始化的已选择特征集;
对所述候选特征集进行特征选择,得到当前迭代轮次的目标特征集;
将所述目标特征集中的所有特征加入所述已选择特征集,得到中间特征集;
对所述中间特征集进行特征剪枝处理得到目标已选特征集;
输出最终得到的所述目标已选特征集。
在上述实现过程中,该方法可以优先获取候选特征集和初始化的已选择特征集;然后,对候选特征集进行特征选择,得到当前迭代轮次的目标特征集;再后,将目标特征集中的所有特征加入已选择特征集,得到中间特征集;并对中间特征集进行特征剪枝处理得到目标已选特征集;最后,再输出最终得到的目标已选特征集。可见,该方法能够根据特征选择和剪枝方法,减少需要计算的特征数量,从而节约了计算资源和存储资源,并有效缩短了计算时间。
进一步地,获取所述候选特征集和初始化的所述已选择特征集,包括:
根据深度合成特征定义获取所述候选特征集;
初始化所述已选择特征集为空集。
进一步地,输出最终得到的目标已选特征集的步骤之前,该方法还包括:
对所述候选特征集进行特征剪枝处理,得到剪枝后的候选特征集;
判断剪枝后的所述候选特征集是否为空;
如果是,则执行输出最终得到的目标已选特征集的步骤;
如果否,则执行对所述候选特征集进行特征选择,得到当前迭代轮次的目标特征集的步骤。
进一步地,对所述中间特征集进行特征剪枝处理得到目标已选特征集,包括:
根据所述中间特征集计算已选特征矩阵;
基于所述已选特征矩阵评估所述中间特征集中各个特征的重要度;
根据所述重要度对所述中间特征集进行特征剪枝处理,得到目标已选特征集。
进一步地,对所述候选特征集进行特征选择,得到当前迭代轮次的目标特征集,包括:
初始化本轮特征集为空集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛创新奇智科技集团股份有限公司,未经青岛创新奇智科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310154323.5/2.html,转载请声明来源钻瓜专利网。