[发明专利]一种特征组合方法、装置及设备在审
申请号: | 201811430613.3 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109635955A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 何博睿 | 申请(专利权)人: | 中诚信征信有限公司 |
主分类号: | G06N99/00 | 分类号: | G06N99/00;G06N3/12 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 100011 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 组合特征 特征组合 预设 装置及设备 相关度 逻辑运算 目标特征 遗传算法 终止条件 重复确定 建模 算法 工作量 应用 | ||
本发明实施例提供了一种特征组合方法、装置及设备,该方法包括:利用独热码表示每一特征,作为每一特征对应的独热码特征;从独热码特征中选取特征,利用逻辑运算算法对选取的特征进行特征组合,得到第一预设数量组合特征;确定得到的组合特征中与目标特征之间相关度绝对值大于预设阈值的特征,作为第一组合特征;从得到的组合特征中选取第二预设数量个特征,作为第二组合特征;利用遗传算法对第一组合特征与第二组合特征进行交叉变异得到新的组合特征,重复确定第一组合特征至满足预先设定的终止条件,将每一次确定的第一组合特征中相关度最高的第三预设数量个组合特征作为特征组合结果。应用本发明实施例提供的方案能够减少建模人员的工作量。
技术领域
本发明涉及计算机技术领域,特别是涉及一种特征组合方法、装置及设备。
背景技术
在机器学习建模的过程中,通过特征工程得到的用于进行模型训练的特征是决定模型效果好坏的关键。特征工程在机器学习中占有非常重要的作用,一般包括:特征组合、特征提取、特征选择三个部分。特征组合即为在已有的特征的基础上,通过特征之间的组合得到新的特征,以此增加用于模型训练的特征。
实际应用中,特征组合通常是建模人员根据经验进行人工组合完成的。然而人工组合的方式会耗费建模人员大量的时间和精力,增大建模人员的工作量。基于此,如何在特征组合过程减少建模人员的工作量,是目前亟待解决的问题。
发明内容
本发明实施例的目的在于提供一种特征组合方法、装置及设备,以实现减少建模人员的工作量。具体技术方案如下:
本发明实施的一方面,提供了一种特征组合方法,所述方法包括:
获取用于进行特征组合的特征;
利用独热码表示所获取的每一特征,作为每一特征对应的独热码特征;
从独热码特征中选取特征,利用预设的逻辑运算算法对所选取的特征进行特征组合,得到第一预设数量个组合特征;
确定得到的组合特征中与目标特征之间相关度绝对值大于预设阈值的特征,作为第一组合特征;
从得到的组合特征中选取第二预设数量个特征,作为第二组合特征;
利用遗传算法,对第一组合特征与第二组合特征进行交叉变异,得到新的组合特征,返回所述确定得到的组合特征中与目标特征之间相关度绝对值大于预设阈值的特征的步骤,直至满足预先设定的终止条件,并将每一次确定的第一组合特征中相关度最高的第三预设数量个组合特征作为输出结果。
可选的,所述利用独热码表示所获取的每一特征,包括:
利用独热码按照以下方式表示所获取的每一特征:
在特征为连续特征的情况下,利用分箱法对特征进行分类得到离散特征,利用独热码表示所得到的离散特征,作为特征对应的独热码特征;
在特征为离散特征的情况下,直接利用独热码表示特征,作为特征对应的独热码特征。
可选的,所述从独热码特征中选取特征,利用预设的逻辑运算算法对所选取的特征进行特征组合,得到第一预设数量个组合特征的步骤,包括:
从独热码特征中随机选取n个特征,其中,n≥2;
利用与、或、异或逻辑运算算法对所选取的特征进行特征组合得到组合特征;
返回所述在独热码特征中随机选取n个特征的步骤,直至累计得到所述第一预设数量个组合特征。
可选的,在所述确定得到的组合特征中与目标特征之间相关度绝对值大于预设阈值的特征,作为第一组合特征的步骤之后,还包括:
对第一组合特征进行去重处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中诚信征信有限公司,未经中诚信征信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811430613.3/2.html,转载请声明来源钻瓜专利网。