[发明专利]一种面向超级计算机的分布式并行深度神经网络性能评测方法有效
申请号: | 202011140338.9 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112434785B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 张兴军;魏嘉;纪泽宇;李靖波;姬辰肇;魏正;岳莹莹;高柏松 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06N3/0464;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 李红霖 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 超级 计算机 分布式 并行 深度 神经网络 性能 评测 方法 | ||
1.一种面向超级计算机的分布式并行深度神经网络性能评测方法,其特征在于,包括以下步骤:
步骤1、搭建神经网络执行框架
根据超级计算机的体系架构,将分布式粒度划分为同种计算节点的多节点和单节点两种类型,同时将并行粒度设计为不低于节点数目;
将pytorch分布式深度神经网络训练框架部署到超级计算机上;
将MPI作为底层分布式通信协议;
步骤2、选择深度神经网络模型和训练数据集
步骤3、训练深度神经网络模型
根据分布式粒度的设计,进行不同处理器的单节点、多进程并行训练任务,及不同处理器的多节点、多进程分布式训练任务;
根据测试结果判断不同处理器的单节点以及不同处理器的多节点中分布式并行深度神经网络的最优进程数,调整深度神经网络的相关配置参数,重新进行测试,与之前的测试结果进行比对,直至得出一致性的结论,结束评测;
步骤3中调整深度神经网络的相关配置参数包括:批大小和学习率。
2.根据权利要求1所述的面向超级计算机的分布式并行深度神经网络性能评测方法,其特征在于,步骤1中的所述超级计算机为天河三号原型机,处理器包括FTP和MTP。
3.根据权利要求2所述的面向超级计算机的分布式并行深度神经网络性能评测方法,其特征在于,对于单MTP节点,设计进程数为1-20的测试实验;
对于单FTP节点,设计进程数为1-32的测试实验;
对于多MTP节点,设计节点数为2-128,进程数为2倍MTP节点数-128的测试实验;
对于多FTP节点,设计节点数为2-32,进程数为2倍FTP节点-128的测试实验。
4.根据权利要求1或2所述的面向超级计算机的分布式并行深度神经网络性能评测方法,其特征在于,步骤2选择的深度神经网络模型为:
以改进的LeNet深度神经网络模型来进行图像分类工作;
所述改进的LeNet深度神经网络模型包含两个卷积层,两个池化层,三个激活层以及两个全连接层;
第一个卷积层,输入通道数为1,输出通道数为10,卷积核大小为5×5,步长为1,零填充;
第二个卷积层,输入通道数为10,输出通道数为20,其余同第一个卷积层一致;
两个池化层均使用最大池化方法;
三个激活函数均使用relu函数。
5.根据权利要求4所述的面向超级计算机的分布式并行深度神经网络性能评测方法,其特征在于,对改进的LeNet深度神经网络模型使用drop_out优化方法进行优化。
6.根据权利要求4所述的面向超级计算机的分布式并行深度神经网络性能评测方法,其特征在于,步骤2中选择的训练数据集为Mnist数据集。
7.根据权利要求1或2所述的面向超级计算机的分布式并行深度神经网络性能评测方法,其特征在于,步骤3中采取数据并行的分布式训练策略,以all-reduce机制作为通信策略,并使用整体同步并行计算模型BSP,同时将训练集上的数据均匀分配到各进程之上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011140338.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用即弃智能棉尿裤
- 下一篇:一种基于winograd动态卷积块的图像处理方法