[发明专利]基于联邦学习的知识迁移方法、装置、设备及介质有效

申请号：	201911344082.0	申请日：	2019-12-20
公开（公告）号：	CN111126609B	公开（公告）日：	2021-04-23
发明（设计）人：	梁新乐;刘洋;陈天健;董苗波	申请（专利权）人：	深圳前海微众银行股份有限公司
主分类号：	G06N5/02	分类号：	G06N5/02;G06N20/00
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	王韬
地址：	518000 广东省深圳市前海深港合作区前***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于联邦学习知识迁移方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种基于联邦学习的知识迁移方法、装置、设备和介质，所述基于联邦学习的知识迁移方法包括：接收不同训练任务的各强化学习训练模型，并对各所述强化学习训练模型进行适配，获得强化学习适配模型，对各所述强化学习适配模型进行联邦处理，获得联邦模型，对所述联邦模型进行适配，获得联邦适配模型，将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备，以对各所述强化学习训练模型进行迭代训练。本申请解决了知识迁移效率低的技术问题。

技术领域

本申请涉及金融科技(Fintech)的机器学习技术领域，尤其涉及一种基于联邦学习的知识迁移方法、装置、设备及介质。

背景技术

随着金融科技，尤其是互联网科技金融的不断发展，越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域，但金融业也对技术提出了更高的要求，如对金融业对应待办事项的分发也有更高的要求。

随着计算机软件和人工智能的不断发展，机器学习建模的应用也越来越广泛，在现有技术中，强化学习训练模型通常利用自身收集的数据进行学习、优化和控制，强化学习训练模型的知识也是可迁移的，例如，将无人车的控制知识迁移到扫地机器人的控制上，目前，通常是通过离线的迁移模型进行强化学习训练模型的知识的迁移，但是，这种离线迁移的方法在训练过程中需要花费大量的训练时间，进而导致强化学习训练模型的知识迁移效率极低，且导致训练过程中消耗的计算资源和传输资源过高，所以，现有技术中存在知识迁移效率低的技术问题。

发明内容

本申请的主要目的在于提供一种基于联邦学习的知识迁移方法、装置、设备和介质，旨在解决现有技术中知识迁移效率低的技术问题。

为实现上述目的，本申请提供一种基于联邦学习的知识迁移方法，所述基于联邦学习的知识迁移方法应用于基于联邦学习的知识迁移设备，所述基于联邦学习的知识迁移方法包括：

接收不同训练任务的各强化学习训练模型，并对各所述强化学习训练模型进行适配，获得强化学习适配模型；

对各所述强化学习适配模型进行联邦处理，获得联邦模型；

对所述联邦模型进行适配，获得联邦适配模型；

将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备，以对各所述强化学习训练模型进行迭代训练。

可选地，所述对各所述强化学习训练模型进行适配，获得强化学习适配模型的步骤包括：

获取各所述强化学习训练模型的模型输入和模型输出；

对各所述模型输入和各所述模型输出进行校正，获得所述强化学习适配模型。

可选地，所述模型输入包括环境参数，所述模型输出包括模型控制变量，

所述对各所述模型输入和各所述模型输出进行校正，获得所述强化学习适配模型的步骤包括：