[发明专利]基于MapReduce框架的支持向量机最优分类模型参数搜索的方法有效
申请号: | 201910407596.X | 申请日: | 2019-05-16 |
公开(公告)号: | CN110188804B | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 刘黎志;何经纬 | 申请(专利权)人: | 武汉工程大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 许美红 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 mapreduce 框架 支持 向量 最优 分类 模型 参数 搜索 方法 | ||
本发明公开了一种基于MapReduce框架的支持向量机最优分类模型参数搜索的方法,包括以下步骤:A、在Map阶段为每组参数赋予不同的键值,使得在Reduce阶段每个并行执行的任务只对一组参数进行交叉验证;B、以串行MapReduce作业执行方式或者单个MapReduce作业执行方式选择支持向量机最优分类模型的最优参数。本发明通过选择合适的MapReduce作业方式,设置适当的Reduce任务数量,可以在保证在集群内存资源合理消耗的前提下,显著的提高最优模型参数获取的时间性能。
技术领域
本发明涉及机器学习及人工智能算法领域,尤其涉及一种基于MapReduce框架的支持向量机最优分类模型参数搜索的新方法。
背景技术
支持向量机分类模型的建立需要经过大量的计算,随着训练样本集规模的增长,不仅会大量消耗主机的CPU及内存资源,而且训练模型所需要时间也会急剧增加,从而使得在单机环境下得到模型变得很困难。Hadoop平台下的分布式计算框架MapReduce(其中Map为映射,Reduce为归约)及Spark为并行化训练大规模数据集提供了新的方法和手段,在分布式计算框架的支持下,支持向量机分类模型的训练过程可以并行化,从而显著缩短了得到模型所需要的时间。为了让支持向量机分类模型能够更鲁棒的用于实际数据的预测及解决线性不可分问题,在模型的训练过程中,需要对模型的参数进行选择,从而得到最优的模型。
发明内容
本发明的目的在于在合理利用集群内存资源及保证进行交叉验证的Reduce任务充分并行执行的前提下,显著减少最优模型参数的获取时间。
为达上述目的,本发明提供一种基于MapReduce框架的支持向量机最优分类模型参数搜索的方法,包括以下步骤:
A、在Map阶段为每组参数赋予不同的键值,使得在Reduce阶段每个并行执行的任务只对一组参数进行交叉验证;
B、以串行MapReduce作业执行方式或者单个MapReduce作业执行方式选择支持向量机最优分类模型的最优参数。
接上述技术方案,步骤A中每个并行执行的Reduce任务只对一组参数进行交叉验证具体为:
A1、生成需要进行搜索的n个参数组(ci,γi),0i≤n,ci为惩罚参数,控制支持向量机模型如何处理错误;γi为高斯核函数参数,高斯核函数负责将线性不可分的问题转换为线性可分的问题;
A2、将每组参数以一个文件的形式存入到Hadoop集群中的hdfs文件系统;
A3、在Map阶段,每个Map任务读取存储在hdfs文件系统中的参数文件,并为每个参数文件形成一个具有唯一键值的中间结果;
A4、在Reduce阶段,执行参数交叉验证的Reduce任务的个数与中间结果的个数一致,每个Reduce任务只对一组参数进行交叉验证。
接上述技术方案,串行MapReduce作业执行方式具体为:
限制并发执行的Reduce的任务个数,一种限制Reduce任务个数的方式为将需要选择的m个参数划分为n个MapReduce作业(Job1,Job2,…,Jobn-1,Jobn),n≥1,其中(Job1,Job2,…,Jobn-1)执行m/n个参数的验证,Jobn执行m%n个参数的验证,(Job1,Job2,…,Jobn-1)在JobTrack的控制下串行执行;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉工程大学,未经武汉工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910407596.X/2.html,转载请声明来源钻瓜专利网。