[发明专利]基于深度强化学习的联邦学习客户端智能选取方法及系统有效
申请号: | 202110449033.4 | 申请日: | 2021-04-25 |
公开(公告)号: | CN113191484B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 张尧学;邓永恒;吕丰;任炬 | 申请(专利权)人: | 清华大学;中南大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 长沙朕扬知识产权代理事务所(普通合伙) 43213 | 代理人: | 何湘玲 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 联邦 客户端 智能 选取 方法 系统 | ||
1.一种基于深度强化学习的联邦学习客户端智能选取方法,应用于联邦服务市场框架,所述联邦服务市场框架包括一个以一定的预算招募客户端完成联邦学习任务的联邦平台和多个愿意参与联邦学习并向联邦平台提交联邦学习任务的候选客户端;其特征在于,包括以下步骤:
联邦平台通过从联邦服务市场环境中收集客户端的状态作为输入,输入到基于策略网络的客户端选择智能体中,输出客户端选择方案;联邦平台根据当前环境状况以及所述客户端选择方案从多个所述候选客户端中选取一组最优的客户端以协同训练联邦学习模型,并将联邦学习性能作为奖励反馈给所述客户端选择智能体,以奖励用于优化更新策略网络;所述策略网络通过强化学习方法离线训练得到;
所述客户端选择智能体,为基于编码器-解码器结构的策略网络,编码器将客户端状态映射为中间向量表示,解码器根据所述中间向量表示生成客户端选择方案;所述客户端状态包括数据大小、数据质量和价格。
2.根据权利要求1所述的基于深度强化学习的联邦学习客户端智能选取方法,其特征在于,所述策略网络的强化学习模型,包括状态、动作、奖励和策略:
状态:状态s={x1,x2,…,xn}包含给定联邦学习任务所有候选客户端的特征,每个客户端Ci的特征xi是一个三维向量,用xi={qi,di,bi}表示,其中qi和di分别是客户端Ci的数据质量和用于训练的样本数量,bi是客户端Ci完成该学习任务的价格;
动作:采用顺序动作,即客户端选择代理通过采取一系列的动作一一做出客户端选择决策;一个单独的动作只从一组最多N个候选客户端中选出一个客户端;
奖励:将执行客户端选择操作后从联邦服务市场观察到的奖励r作为训练后损失函数值的减少率,即:
其中,F(w)是学习任务测试数据集上的初始全局损失函数值,F(w*)是经过选定客户端的多轮协同训练后达到的测试损失函数值;
策略:将客户端选择的一个可行动作a={a1,…,ai,…}定义为候选客户端的一个子集,其中ai∈{C1,C2,…,Cn}且策略网络为一个随机的客户端选择策略π(a|s,B)用于在给定状态s和学习预算B的情况下选择一个可行动作a;训练策略网络的目标是最大化累计奖励。
3.根据权利要求2所述的基于深度强化学习的联邦学习客户端智能选取方法,其特征在于,所述最大化累计奖励,表示为:
其中r(a|s)是在状态s执行动作a后的奖励;
使用REINFORCE算法来优化J,使用梯度下降来不断优化参数θ:
其中b(s)代表一个独立于a的基准函数用于加速训练过程;参数θ是编码器和解码器可学习参数的并集。
4.根据权利要求2所述的基于深度强化学习的联邦学习客户端智能选取方法,其特征在于,所述编码器包括:
客户端嵌入层首先通过线性投影把三维输入特征xi转化为初始的dh维嵌入向量其中Wx和bx为可学习参数;
然后,嵌入向量会经过L个注意力层更新,其中,每一个注意力层l∈{1,2,…,L}输出嵌入向量每个注意力层包含一个MHA层和一个FF层,每层后面都添加了一个跳跃连接和批归一化。
5.根据权利要求4所述的基于深度强化学习的联邦学习客户端智能选取方法,其特征在于,所述解码器包括:
基于编码器输出的嵌入向量和解码器在时间t′t时间输出的客户端选择结果,解码器在每个时间点t输出一个选中的客户端at直到学习预算用尽;解码器的网络包含一个多头注意力层和一个单头注意力层。
6.一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5中任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;中南大学,未经清华大学;中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110449033.4/1.html,转载请声明来源钻瓜专利网。