[发明专利]计算模型的特征生成方法、装置、电子设备和存储介质有效
申请号: | 201910596683.4 | 申请日: | 2019-07-02 |
公开(公告)号: | CN110390400B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 李京昊;陈鹏程;陈金辉;朱晨 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 模型 特征 生成 方法 装置 电子设备 存储 介质 | ||
本申请公开了计算模型的特征生成方法、装置、电子设备和存储介质。所述方法包括:获取样本数据集和基础特征集;根据所述样本数据集和所述基础特征集构建序贯森林模型;其中,为各森林模型分配不同的基础特征,同一森林模型中的各树模型的根节点均使用为该森林模型分配的同一基础特征作为划分特征;根据构建完成的序贯森林模型得到组合特征和/或复合特征。该技术方案的有益效果在于,基于序贯森林模型来进行特征的交叉衍生,提出了一种新的特征生成方式,基础特征的选择较随机森林更具有可控性,生成的特征解释性更强,降低了生成重复特征和无用特征的可能,并且各森林模型可以并行构建,效率很高。
技术领域
本申请涉及机器学习领域,具体涉及计算模型的特征生成方法、装置、电子设备和存储介质。
背景技术
机器学习以计算模型的构建作为基础,在不同的领域往往选择构建不同的计算模型。例如,金融风控领域中,常使用信用评分卡对用户信用风险进行建模及评估,为了平衡计算模型的可解释性和算法复杂度,信用评分卡往往构建于线性模型之上。对于线性模型而言,无法捕捉特征间的交互信息,因此在构建计算模型之前的特征工程阶段,通常需要进行特征的交叉衍生,得到组合特征(也称交叉特征、交叉组合特征等)。
现有技术中,特征衍生的方式存在一些问题,例如:线性判别分析LDA无法捕捉到特征间的非线性交互信息;暴力交叉衍生的复杂度过高、可解释性较差;梯度提升树GBDT、随机森林陷入局部最优,等等。因此,需要一种新的特征生成方式。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的计算模型的特征生成方法、装置、电子设备和存储介质。
依据本申请的一个方面,提供了一种计算模型的特征生成方法,包括:
获取样本数据集和基础特征集;
根据所述样本数据集和所述基础特征集构建序贯森林模型;其中,为各森林模型分配不同的基础特征,同一森林模型中的各树模型的根节点均使用为该森林模型分配的同一基础特征作为划分特征;
根据构建完成的序贯森林模型得到组合特征和/或复合特征。
可选地,所述为各森林模型分配不同的基础特征包括:
根据所述样本数据集对所述基础特征集中的各基础特征进行预设数量轮信息增益计算,在每轮计算结束后,将该轮得到的信息增益最大的基础特征从所述基础特征集提取出来,并将其分配给一个未被分配基础特征的森林模型。
可选地,所述根据所述样本数据集和所述基础特征集构建序贯森林模型包括:
对一个森林模型中的各树模型,分别确定各层所使用的划分特征;其中,在确定一目标层所使用的划分特征时,根据各树模型中各层已使用的划分特征和所述基础特征集,确定目标基础特征列表,根据所述样本数据集和所述目标基础特征列表进行信息增益计算,得到信息增益最大的基础特征作为该目标层所使用的划分特征。
可选地,所述根据各树模型中各层已使用的基础特征和所述基础特征集,确定目标基础特征列表包括:
若目标层为第二层,则选取属于所述基础特征集、但未被根节点使用、且未被同一森林模型中其他树模型的第二层使用的基础特征,放入所述目标基础特征列表;
若目标层为第二层以下的其他层,则选取属于所述基础特征集、且未被本树模型的使用过的基础特征,放入所述目标基础特征列表。
可选地,所述森林模型中树模型的数量和/或树模型的深度是预先确定的。
可选地,所述根据构建完成的序贯森林模型得到组合特征和/或复合特征包括:
将根据各树模型所确定的各条特征组合路径分别确定为相应的一维组合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910596683.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种强化学习的高效探索方法
- 下一篇:使用嵌入空间之间的变分映射生成跨域数据