[发明专利]基于并行投影方法的L1正则化核学习机的分布式训练方法有效

申请号：	201510293837.4	申请日：	2015-06-01
公开（公告）号：	CN104954972B	公开（公告）日：	2019-03-29
发明（设计）人：	侯义斌;及歆荣;侯翠琴	申请（专利权）人：	北京工业大学
主分类号：	H04W4/38	分类号：	H04W4/38;H04W84/18
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于并行投影方法 l1 正则学习机分布式训练
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于并行投影方法的L1正则化核学习机的分布式训练方法，本方法在核学习机训练过程中包括四个重要机制；

机制1：节点本地核学习机优化问题求解方法

在节点本地模型与邻居节点间的局部最优模型相一致的约束下，利用并行投影方法构建和求解基于L1正则化的KMSE的分布式训练优化问题；

机制2：节点本地稀疏模型求解；

利用交替方向乘子方法(Alternating Direction Method of Multipliers,ADMM)对节点本地的L1正则化KMSE训练优化问题进行稀疏模型求解；

机制3：邻居节点间的协作机制；

为求解邻居节点间的局部最优模型、加快节点本地模型收敛和减少节点间数据传输量，相邻节点间以传输稀疏模型的方式进行协作，并将接收到的稀疏模型中携带的样本信息加入到本地样本集；

机制4：节点模型一致性；

当各节点都收敛到稳定模型后，仅依靠相邻节点间传输稀疏模型的方式进行协作，使每个节点上都接收到网络中所有其他节点的模型，然后各节点本地对所有模型进行平均以得到一致模型；

基于机制1、机制2、机制3和机制4的L1正则化核学习机的分布式训练方法有五个阶段，分别是：

1.节点本地初始化；2.节点本地稀疏模型求解和发送；3.节点接收邻居节点发送过来的稀疏模型，计算局部最优模型预测值；4.节点本地模型收敛条件判定；5.节点模型一致性；

基于并行投影的L1正则化核学习机的分布式训练方法，其是在以下前提条件下进行的：

a.网络中每个节点都有唯一的ID号；

b.网络结构稳定且连通；

c.网络中各节点仅与其单跳邻居节点通信；

d.网络中各节点使用相同的核函数和相同的参数值；

其特征在于：该L1正则化核学习机的分布式训练方法的步骤如下，

步骤1：节点本地初始化

步骤1.1：各节点初始化网络规模J、邻居节点集合B_j、本地训练样本集合确定核函数k(x_i,x_j)并初始化核参数σ和正则系数λ；

其中，B_j是由节点j及其邻居节点构成的集合；x_jn∈R^p是节点j的第n个训练样本jn的特征向量，p为特征向量维数，y_jn∈Y:＝{1,-1}是训练样本jn对应的类别标签，N_j是训练样本数量；k(x_i,x_j)中x_i和x_j是两个训练样本，其作用是计算两个训练样本之间的距离，核参数σ是核函数中的一个常量参数，正则系数λ是L1正则项的一个常量参数，用于调节正则项在整个损失中的比例；

步骤1.2：各节点利用y＝(x-xmin)/(xmax-xmin)将本地训练样本的特征信息归一化到[0，1]区间；各节点为归一后的训练样本增加标识字段node_ID和example_ID以唯一标识每个训练样本，增加发送标识字段is_sended标识该样本是否已经发送过，以避免重复发送；

其中，x为训练样本的某一个特征信息，xmax和xmin分别为训练样本该特征信息的最大值和最小值，y为训练样本特征信息x归一处理后的结果；

步骤2：节点本地稀疏模型求解和发送

步骤2.1：各节点在本地模型和邻居节点间的局部最优模型相一致约束下，利用并行投影方法构建和求解基于L1正则化的KMSE的分布式训练优化问题，构建的优化问题形式如式(1)，相应的求解迭代形式如式(2)-式(3)；

在式(1)-式(3)中，f_j(x_jn)是节点j的本地模型对本地样本的预测值，为节点j及其邻居节点间的局部最优模型对节点j上训练样本x_jn的预测值；式(1)和式(2)中，λ||f_j||₁是对本地模型的L1正则化项，用于本地模型的稀疏求解，为节点本地模型和局部最优模型相一致的并行投影形式；Num(B_j)是包括j在内的邻居节点数量；

步骤2.2：各节点利用核函数k(x_i,x_j)对本地归一化后的训练样本进行核矩阵计算和增广，得到增广矩阵K_j；

步骤2.3：各节点利用ADMM对式(2)的优化问题进行稀疏模型求解，对应的优化问题形式如式(4)，求解迭代形式如式(5)-式(7)；

z_j^k+1:＝S_λ/ρ(α_j^k+1+u_j^k) (6)

u_j^k+1:＝u_j^k+α_j^k+1-z_j^k+1 (7)

在式(4)和式(5)中，K_j是本地训练样本的增广核矩阵，Y_j本地训练样本的类别标签向量，I为本地样本量加1，即N_j+1维的单位矩阵，α_j是要求解的本地训练样本的权重向量，z_j是利用ADMM增加的辅助向量，辅助α_j求解；

在式(5)-式(7)中，ρ是约束α_j-z_j＝0的增广系数，是一个正常数，u_j为约束α_j-z_j＝0的乘子系数向量，S_λ/ρ()为软阈值操作函数，其定义如式(8)，

步骤2.4：将解α_j^k+1中非零项和对应的样本信息提取出来作为节点j∈J本地的稀疏模型，如式(9)所示：

步骤2.5：节点整理本地稀疏模型，如果稀疏模型中训练样本的is_sended字段为0，表示该样本还没有被发送过，此时需要将该训练样本的原始特征信息保留在模型中；如果is_sended字段为1，代表该训练样本的原始特征信息已经发送过，此时只将该样本的标识字段信息保留在模型中；

步骤2.6：节点将本地整理好的稀疏模型发送给其单跳邻居节点B_j；

步骤3：节点接收邻居节点发送过来的稀疏模型，计算局部最优模型预测值；

步骤3.1：节点j∈J接收邻居节点发送过来的稀疏模型f_i^k+1(x_i),i∈B_j，并将每个稀疏模型中携带的样本信息不重复的加入到本地训练样本集；

步骤3.2：节点j∈J利用接收到的各稀疏模型对本地训练样本进行预测，利用并行投影方法求解局部最优模型预测值公式，式(3)，求出本地训练样本的局部最优模型预测值