[发明专利]基于联邦学习的知识迁移方法、装置、设备及介质有效
申请号: | 201911344082.0 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111126609B | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 梁新乐;刘洋;陈天健;董苗波 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06N20/00 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 王韬 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 联邦 学习 知识 迁移 方法 装置 设备 介质 | ||
1.一种基于联邦学习的知识迁移方法,其特征在于,所述基于联邦学习的知识迁移方法包括:
知识迁移设备接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,其中,所述知识迁移设备对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:
知识迁移设备从所有训练任务中选定目标训练任务对应的强化学习训练模型为标准强化学习训练模型,获得标准模型输出和标准模型输入,并通过将各所述强化学习训练模型对应的模型输入和对应的模型输出校正为所述标准模型输出和标准模型输入,调整各所述强化学习训练模型的模型网络参数,获得强化学习适配模型;
所述知识迁移设备对各所述强化学习适配模型进行联邦处理,获得联邦模型;
所述知识迁移设备对所述联邦模型进行适配,获得联邦适配模型;
所述知识迁移设备将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
2.如权利要求1所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:
获取各所述强化学习训练模型的模型输入和模型输出;
对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。
3.如权利要求2所述基于联邦学习的知识迁移方法,其特征在于,所述模型输入包括环境参数,所述模型输出包括模型控制变量,
所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型的步骤包括:
对各所述环境参数进行量纲校正,获得模型输入校正结果;
对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;
基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。
4.如权利要求3所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述环境参数进行量纲校正,获得模型输入校正结果的步骤包括:
获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;
基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。
5.如权利要求3所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果的步骤包括:
对各所述控制变量进行对齐处理,获得对齐处理结果;
获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。
6.如权利要求1所述基于联邦学习的知识迁移方法,其特征在于,所述对所述联邦模型进行适配,获得联邦适配模型的步骤包括:
获取各所述强化学习训练模型的训练任务;
基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。
7.如权利要求1所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述强化学习适配模型进行联邦处理,获得联邦模型的步骤包括:
获取各所述强化学习适配模型的模型参数,并对各所述模型参数进行加权平均,获得联邦模型参数;
基于所述联邦模型参数,获取所述联邦模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911344082.0/1.html,转载请声明来源钻瓜专利网。