[发明专利]神经网络模型训练系统、方法及相关设备在审
申请号: | 202211181327.4 | 申请日: | 2022-09-27 |
公开(公告)号: | CN115564041A | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 周阅;任智祥;田永鸿;高文 | 申请(专利权)人: | 鹏城实验室 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 陈专 |
地址: | 518000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 训练 系统 方法 相关 设备 | ||
本发明公开了神经网络模型训练系统、方法及相关设备,其中,上述系统包括多个通信连接的计算节点,上述系统根据计算节点以数据和模型并行的方式训练待训练模型,计算节点包括依次通信连接的数据生成模块、数据传输模块、训练模块和模型参数存储模块;数据生成模块生成一批模型训练数据;数据传输模块获取模型训练数据、预处理获得预处理训练数据并搬运到训练模块;训练模块根据预处理训练数据对待训练模型进行训练以更新待训练模型的模型参数并更新数据迭代次数,更新后的数据迭代次数小于数据迭代次数阈值时触发数据生成模块生成下一批模型训练数据;模型参数存储模块存储模型参数。本发明有利于提高神经网络模型训练时的收敛效果。
技术领域
本发明涉及人工智能技术领域,尤其涉及的是一种神经网络模型训练系统、方法及相关设备。
背景技术
随着科学技术的发展,尤其是人工智能技术的发展,神经网络的应用越来越广泛。其中,预训练的神经网络模型经过微调之后即可以快速迁移到不同的应用场景中使用,因此神经网络模型的应用也越来越广泛。
现有技术中,通常在一个独立的训练设备中进行神经网络模型的训练。现有技术的问题在于,只能通过存储在该独立训练设备内存中的训练数据进行模型训练,但训练设备的内存通常较小并且存储空间有限,对应能够存储的训练数据的数据量也较小,难以满足神经网络模型(尤其是大规模神经网络模型)训练时的数据量要求,容易导致神经网络训练时欠拟合,不利于提高神经网络模型训练时的收敛效果以及训练获得的神经网络模型的性能。
因此,现有技术还有待改进和发展。
发明内容
本发明的主要目的在于提供一种神经网络模型训练系统、方法及相关设备,旨在解决现有技术中仅在一个独立的训练设备中进行神经网络模型的训练,只能通过存储在该独立训练设备内存中的较少的训练数据进行模型训练,容易导致神经网络训练时欠拟合,不利于提高神经网络模型训练时的收敛效果以及训练获得的神经网络模型的性能的问题。
为了实现上述目的,本发明第一方面提供一种神经网络模型训练系统,其中,上述神经网络模型训练系统包括多个通信连接的计算节点,上述神经网络模型训练系统根据上述计算节点以数据并行和模型并行的方式训练待训练模型,上述计算节点包括:
依次通信连接的数据生成模块、数据传输模块、训练模块和模型参数存储模块;
上述数据生成模块用于生成与当前的数据迭代次数对应的一批模型训练数据;
上述数据传输模块用于获取上述模型训练数据,对上述模型训练数据进行预处理获得预处理训练数据,并将上述预处理训练数据搬运到上述训练模块;
上述训练模块用于根据上述预处理训练数据对上述待训练模型进行训练以更新上述待训练模型的模型参数,并更新上述数据迭代次数,在更新后的数据迭代次数小于预设的数据迭代次数阈值时触发上述数据生成模块生成与更新后的数据迭代次数对应的下一批模型训练数据;
上述模型参数存储模块用于存储上述待训练模型的模型参数;
其中,上述待训练模型是多种预设神经网络模型中的一种,上述多种预设神经网络模型包括卷积神经网络模型、图形神经网络模型、Transformer模型、生成对抗网络模型和循环神经网络模型。
可选的,上述计算节点还包括:
其它硬件设备模块和其它进程存储模块,上述其它硬件设备模块分别与上述数据传输模块、上述训练模块、上述模型参数存储模块以及上述其它进程存储模块通信连接;
上述其它硬件设备模块包括电源;
上述其它进程存储模块用于存储其它预设进程,上述其它预设进程包括系统进程和其它应用程序进程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室,未经鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211181327.4/2.html,转载请声明来源钻瓜专利网。