[发明专利]一种基于人工智能应用的无损网络性能测试方法和装置有效
申请号: | 202110060368.7 | 申请日: | 2021-01-18 |
公开(公告)号: | CN112866059B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 邱奔;李洁;郭亮;王月;王少鹏;谢丽娜;吴美希;刘鹏云;许可欣;常金凤;宫伟文;柯芊;李宁东;盛凯;卢帅;郑常奎 | 申请(专利权)人: | 中国信息通信研究院 |
主分类号: | H04L43/08 | 分类号: | H04L43/08;H04L43/0829;H04L43/0852;H04L43/0894;H04L43/12;H04L41/0803 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 杜志敏;宋志强 |
地址: | 100191 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 应用 无损 网络 性能 测试 方法 装置 | ||
1.一种基于人工智能应用的无损网络性能测试方法,其特征在于,所述方法包括:
通过部署网络拓扑构建无损网络人工智能AI业务测试平台,其中,所述网络拓扑包括:服务器和交换机;所述服务器之间通过交换机通信;
所述服务器作为管理节点将待训练数据包分发给多个作为计算节点的服务器;
所述服务器作为计算节点与其他计算节点使用相同的训练模型对接收到的待训练数据包进行AI训练;在训练结束后将训练结果反馈给所述管理节点;
所述服务器作为管理节点确定所述训练结果是否满足预设条件,如果否,根据所述训练结果更新所述计算节点上的训练模型的参数,并将待测数据包重新分发给所述多个计算节点继续进行训练,直到反馈的训练结果满足预设条件;计算网络训练性能值和加速比,并获取无损网络进行AI训练时的丢包率、时延和平均带宽;
其中,所述预设条件为训练次数大于预设次数值。
2.根据权利要求1所述的方法,其特征在于,所述网络拓扑基于二层无阻塞Spine Leaf拓扑模型部署,将所述网络拓扑划分为叶层和脊层,叶层和脊层网络中分别分布着作为叶交换机和脊交换机的交换机,服务器与作为叶交换机的交换机的相连。
3.根据权利要求2所述的方法,其特征在于,对所述网络拓扑中的服务器和交换机进行硬件部署包括:
对服务器、网络设施和显示核心GPU众核加速卡进行部署;其中,所述网络设施包括:交换机和物理连线;
对所述网络拓扑中的服务器和交换机进行软件部署包括:
对作为计算节点的服务器进行深度学习模型训练框架软件、操作系统及容器平台部署;
对作为管理节点的服务器和交换机进行操作系统及容器平台部署。
4.根据权利要求2所述的方法,其特征在于,对所述网络拓扑中的服务器和交换机进行配置包括:
网络拓扑和物理连线、服务器基础环境配置、交换机配置、RDMA网卡QoS配置,以及AI应用软件。
5.根据权利要求3所述的方法,其特征在于,所述方法进一步包括:
在作为计算节点的服务器上安装TensorFlow分布式AI训练框架软件,使各计算节点采用相同的训练模型进行AI训练。
6.根据权利要求1所述的方法,其特征在于,所述服务器作为管理节点将待训练数据包分发给多个作为计算节点的服务器时,通过Kubernetes将待训练数据包分发给多个作为计算节点的服务器。
7.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
部署监控工具,用于监控无损网络进行AI训练时的丢包率、时延和平均带宽;
所述获取无损网络进行AI训练时的丢包率、时延和平均带宽,包括:
从所述监控工具或交换机控制界面查询获取各个计算节点在进行AI训练时的丢包率、时延和平均带宽。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述服务器之间,以及计算节点之间通过交换机通信使用的协议为:
传输控制协议TCP、远程直接数据存取RDMA,或图形处理器远程直接数据存取GDR。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国信息通信研究院,未经中国信息通信研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110060368.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水面垃圾自动收集的方法
- 下一篇:防火内平窗的耐火五金铰链