[发明专利]一种基于进化算法的深度集成结构搜索方法在审
申请号: | 202010193425.4 | 申请日: | 2020-03-18 |
公开(公告)号: | CN111368152A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 朱光辉 | 申请(专利权)人: | 江苏鸿程大数据技术与应用研究院有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06N3/12;G06N20/20 |
代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 | 代理人: | 周超 |
地址: | 211500 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 进化 算法 深度 集成 结构 搜索 方法 | ||
本发明公开了一种基于进化算法的深度集成结构搜索方法,包括如下步骤:S1:初始化结构种群;S2:进化阶段;进化阶段中重复多个进化步,每个进化步中,算法从种群中选取S个个体;S3:比较S个个体的性能,将性能最优的个体进行变异产生新的个体,并将孩子个体评估并加入种群;S4:将具有最大年代的个体从种群中移除;S5:所有个体的年代增长1,进入下一个进化步,如此往复直至进化步数达到指定值,本发明借助进化算法对深度集成学习结构和超参数进行统一搜索,可以针对不同任务适配表现更优异的深度集成学习结构,实验结果表明,本发明针对深度集成学习结构进行自动化搜索,能获得相比深度森林更优异的深度集成学习模型。
技术领域
本发明涉及深度集成学习、自动化机器学习技术领域,具体为一种基于进化算法的深度集成结构搜索方法。
背景技术
在机器学习任务中,具有深度结构的模型往往能够在复杂任务中得到较好的学习效果。举例而言,深度神经网络,通过深度结构来学习数据的表征,在许多领域中取得了巨大成功,尤其是数据的原始表示离适合学习的表示相差较远时,例如图像处理、自然语言处理、语音处理等。但是,仍然有大量的机器学习任务,其原始数据样本是离散的、表格型和有结构的,例如点击率预测数据、欺诈交易检测数据以及诸多的工业数据等。对于这类数据,深度神经网络并不比传统的机器学习算法要优越,反而一些传统树型集成算法,例如XGBoost、LightGBM、GBDT以及随机森林算法等常常拥有更好的性能。原因主要有三,首先表格型数据规模一般较小,DNN不适用。其次,对于这类数据往往无法直接进行反向传播。最后,这类数据不像图像、序列数据集那样,数据原始表示和其内在的模式相差较远。这些表格型数据集往往包含了人工提取的良好特征,其特征与机器学习要挖掘的内在模式联系较大;对于此类数据集,深度神经网络的表征学习能力得不到充分发挥。
尽管如此,深度神经网络中的深度结构仍是模型处理复杂任务一个关键所在,因此,针对表格型数据,借鉴深度神经网络的“深度”思想,周志华等人提出了深度森林。由于其动态增长的深度集成结构,深度森林在大部分的任务中实现了比其他树型集成方法更高的准确率。但是,有一些关键的问题仍然值得讨论。
首先,已有的深度集成算法模型需要依赖人工构建。以深度森林为例,首先需要选择随机森林作为每一层的基分类器。其次,每一层森林的类型和个数都需要预先设置。对于普通的机器学习工作者,设计高效的深度集成算法模型技术门槛较高。另外,深度森林是针对于分类问题而设计,应用范围具有局限性,对于回归等其他任务,设计一个优异的深度集成模型仍然具有较高的门槛,往往需要花费大量人力与时间成本。
因此,针对不同的数据分析任务,需要能够自动化地搜索最优的深度集成学习结构,让普通的机器学习工作者也能针对具体任务设计出性能优越的深度集成学习模型,为现实世界大数据智能化分析带来重要的实际应用价值。
据本文目前所知,学术界和工业界大量研究都是针对于深度神经网络结构搜索,对于深度集成学习的自动化设计问题,缺乏关键技术研究。为此,本发明将自动化机器学习领域的前沿技术与深度集成学习相结合,通过自动化机器学习方法来对深度集成学习结构进行高效的搜索。
发明内容
本发明的目的在于提供一种基于进化算法的深度集成结构搜索方法,能够针对不同任务,对深度集成学习结构进行自动化搜索,用以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于进化算法的深度集成结构搜索方法,包括如下步骤:
S1:初始化结构种群,种群中包含P个深度集成学习结构,其中,P个所述深度集成学习结构标识有唯一DNA编码;在初始化阶段,首先随机选择P个结构,然后在目标数据集上进行评估得出性能,将它们加入种群;
S2:进化阶段;进化阶段中重复多个进化步,每个进化步中,算法从种群中选取S个个体;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏鸿程大数据技术与应用研究院有限公司,未经江苏鸿程大数据技术与应用研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010193425.4/2.html,转载请声明来源钻瓜专利网。