[发明专利]基于联邦学习的知识迁移方法、装置、设备及介质有效
申请号: | 201911344082.0 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111126609B | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 梁新乐;刘洋;陈天健;董苗波 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06N20/00 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 王韬 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 联邦 学习 知识 迁移 方法 装置 设备 介质 | ||
本申请公开了一种基于联邦学习的知识迁移方法、装置、设备和介质,所述基于联邦学习的知识迁移方法包括:接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,对各所述强化学习适配模型进行联邦处理,获得联邦模型,对所述联邦模型进行适配,获得联邦适配模型,将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。本申请解决了知识迁移效率低的技术问题。
技术领域
本申请涉及金融科技(Fintech)的机器学习技术领域,尤其涉及一种基于联邦学习的知识迁移方法、装置、设备及介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能的不断发展,机器学习建模的应用也越来越广泛,在现有技术中,强化学习训练模型通常利用自身收集的数据进行学习、优化和控制,强化学习训练模型的知识也是可迁移的,例如,将无人车的控制知识迁移到扫地机器人的控制上,目前,通常是通过离线的迁移模型进行强化学习训练模型的知识的迁移,但是,这种离线迁移的方法在训练过程中需要花费大量的训练时间,进而导致强化学习训练模型的知识迁移效率极低,且导致训练过程中消耗的计算资源和传输资源过高,所以,现有技术中存在知识迁移效率低的技术问题。
发明内容
本申请的主要目的在于提供一种基于联邦学习的知识迁移方法、装置、设备和介质,旨在解决现有技术中知识迁移效率低的技术问题。
为实现上述目的,本申请提供一种基于联邦学习的知识迁移方法,所述基于联邦学习的知识迁移方法应用于基于联邦学习的知识迁移设备,所述基于联邦学习的知识迁移方法包括:
接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;
对各所述强化学习适配模型进行联邦处理,获得联邦模型;
对所述联邦模型进行适配,获得联邦适配模型;
将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
可选地,所述对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:
获取各所述强化学习训练模型的模型输入和模型输出;
对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。
可选地,所述模型输入包括环境参数,所述模型输出包括模型控制变量,
所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型的步骤包括:
对各所述环境参数进行量纲校正,获得模型输入校正结果;
对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;
基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。
可选地,所述对各所述环境参数进行量纲校正,获得模型输入校正结果的步骤包括:
获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;
基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。
可选地,所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911344082.0/2.html,转载请声明来源钻瓜专利网。