[发明专利]基于并行投影方法的L1正则化核学习机的分布式训练方法有效
申请号: | 201510293837.4 | 申请日: | 2015-06-01 |
公开(公告)号: | CN104954972B | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 侯义斌;及歆荣;侯翠琴 | 申请(专利权)人: | 北京工业大学 |
主分类号: | H04W4/38 | 分类号: | H04W4/38;H04W84/18 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 并行 投影 方法 l1 正则 学习机 分布式 训练 | ||
1.基于并行投影方法的L1正则化核学习机的分布式训练方法,本方法在核学习机训练过程中包括四个重要机制;
机制1:节点本地核学习机优化问题求解方法
在节点本地模型与邻居节点间的局部最优模型相一致的约束下,利用并行投影方法构建和求解基于L1正则化的KMSE的分布式训练优化问题;
机制2:节点本地稀疏模型求解;
利用交替方向乘子方法(Alternating Direction Method of Multipliers,ADMM)对节点本地的L1正则化KMSE训练优化问题进行稀疏模型求解;
机制3:邻居节点间的协作机制;
为求解邻居节点间的局部最优模型、加快节点本地模型收敛和减少节点间数据传输量,相邻节点间以传输稀疏模型的方式进行协作,并将接收到的稀疏模型中携带的样本信息加入到本地样本集;
机制4:节点模型一致性;
当各节点都收敛到稳定模型后,仅依靠相邻节点间传输稀疏模型的方式进行协作,使每个节点上都接收到网络中所有其他节点的模型,然后各节点本地对所有模型进行平均以得到一致模型;
基于机制1、机制2、机制3和机制4的L1正则化核学习机的分布式训练方法有五个阶段,分别是:
1.节点本地初始化;2.节点本地稀疏模型求解和发送;3.节点接收邻居节点发送过来的稀疏模型,计算局部最优模型预测值;4.节点本地模型收敛条件判定;5.节点模型一致性;
基于并行投影的L1正则化核学习机的分布式训练方法,其是在以下前提条件下进行的:
a.网络中每个节点都有唯一的ID号;
b.网络结构稳定且连通;
c.网络中各节点仅与其单跳邻居节点通信;
d.网络中各节点使用相同的核函数和相同的参数值;
其特征在于:该L1正则化核学习机的分布式训练方法的步骤如下,
步骤1:节点本地初始化
步骤1.1:各节点初始化网络规模J、邻居节点集合Bj、本地训练样本集合确定核函数k(xi,xj)并初始化核参数σ和正则系数λ;
其中,Bj是由节点j及其邻居节点构成的集合;xjn∈Rp是节点j的第n个训练样本jn的特征向量,p为特征向量维数,yjn∈Y:={1,-1}是训练样本jn对应的类别标签,Nj是训练样本数量;k(xi,xj)中xi和xj是两个训练样本,其作用是计算两个训练样本之间的距离,核参数σ是核函数中的一个常量参数,正则系数λ是L1正则项的一个常量参数,用于调节正则项在整个损失中的比例;
步骤1.2:各节点利用y=(x-xmin)/(xmax-xmin)将本地训练样本的特征信息归一化到[0,1]区间;各节点为归一后的训练样本增加标识字段node_ID和example_ID以唯一标识每个训练样本,增加发送标识字段is_sended标识该样本是否已经发送过,以避免重复发送;
其中,x为训练样本的某一个特征信息,xmax和xmin分别为训练样本该特征信息的最大值和最小值,y为训练样本特征信息x归一处理后的结果;
步骤2:节点本地稀疏模型求解和发送
步骤2.1:各节点在本地模型和邻居节点间的局部最优模型相一致约束下,利用并行投影方法构建和求解基于L1正则化的KMSE的分布式训练优化问题,构建的优化问题形式如式(1),相应的求解迭代形式如式(2)-式(3);
在式(1)-式(3)中,fj(xjn)是节点j的本地模型对本地样本的预测值,为节点j及其邻居节点间的局部最优模型对节点j上训练样本xjn的预测值;式(1)和式(2)中,λ||fj||1是对本地模型的L1正则化项,用于本地模型的稀疏求解,为节点本地模型和局部最优模型相一致的并行投影形式;Num(Bj)是包括j在内的邻居节点数量;
步骤2.2:各节点利用核函数k(xi,xj)对本地归一化后的训练样本进行核矩阵计算和增广,得到增广矩阵Kj;
步骤2.3:各节点利用ADMM对式(2)的优化问题进行稀疏模型求解,对应的优化问题形式如式(4),求解迭代形式如式(5)-式(7);
zjk+1:=Sλ/ρ(αjk+1+ujk) (6)
ujk+1:=ujk+αjk+1-zjk+1 (7)
在式(4)和式(5)中,Kj是本地训练样本的增广核矩阵,Yj本地训练样本的类别标签向量,I为本地样本量加1,即Nj+1维的单位矩阵,αj是要求解的本地训练样本的权重向量,zj是利用ADMM增加的辅助向量,辅助αj求解;
在式(5)-式(7)中,ρ是约束αj-zj=0的增广系数,是一个正常数,uj为约束αj-zj=0的乘子系数向量,Sλ/ρ()为软阈值操作函数,其定义如式(8),
步骤2.4:将解αjk+1中非零项和对应的样本信息提取出来作为节点j∈J本地的稀疏模型,如式(9)所示:
步骤2.5:节点整理本地稀疏模型,如果稀疏模型中训练样本的is_sended字段为0,表示该样本还没有被发送过,此时需要将该训练样本的原始特征信息保留在模型中;如果is_sended字段为1,代表该训练样本的原始特征信息已经发送过,此时只将该样本的标识字段信息保留在模型中;
步骤2.6:节点将本地整理好的稀疏模型发送给其单跳邻居节点Bj;
步骤3:节点接收邻居节点发送过来的稀疏模型,计算局部最优模型预测值;
步骤3.1:节点j∈J接收邻居节点发送过来的稀疏模型fik+1(xi),i∈Bj,并将每个稀疏模型中携带的样本信息不重复的加入到本地训练样本集;
步骤3.2:节点j∈J利用接收到的各稀疏模型对本地训练样本进行预测,利用并行投影方法求解局部最优模型预测值公式,式(3),求出本地训练样本的局部最优模型预测值
步骤4:节点本地模型收敛条件判定
步骤4.1:节点本地判断模型是否满足收敛条件,收敛条件为节点本地样本集稳定并且节点前后两次得到的模型相同;当所有节点都满足收敛条件时,执行步骤5,否则转步骤4.2;
步骤4.2:节点本地按照阶段2、阶段3的顺序进行优化求解;
步骤5:节点模型一致性
步骤5.1:节点j∈J将本地稀疏模型fj*(xj)发送给单跳邻居节点Bj;
步骤5.2:节点j∈J接收邻居节点发送过来的稀疏模型fi*(xi),i∈Bj,将模型保存在本地并去重处理;
步骤5.3:节点j∈J将新接收到的模型fi*(xi),i∈Bj转发给单跳邻居节点Bj;
步骤5.4:当各节点都得到所有节点的稀疏模型后,利用式(10)在节点本地进行平均,得到一致模型;
最终使每个节点得到与集中训练方法相当的预测效果,并且得到比较稀疏的预测模型,更为重要的是可以显著降低核学习机训练过程中的数据通信代价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510293837.4/1.html,转载请声明来源钻瓜专利网。