[发明专利]AI训练网络及方法有效

申请号：	201980004858.6	申请日：	2019-10-25
公开（公告）号：	CN112042168B	公开（公告）日：	2022-03-04
发明（设计）人：	沈胜宇;吴聿旻	申请（专利权）人：	华为技术有限公司
主分类号：	H04Q11/00	分类号：	H04Q11/00;H04L67/10
代理公司：	暂无信息	代理人：	暂无信息
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	ai 训练网络方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种人工智能训练技术，应用于人工智能AI训练网络，在位于不同服务器的图形处理单元需要通信之前，提前开始建立通信用的光通道，一旦前一个服务器的图形处理单元完成自身的计算后，无需等待或者仅等待少量时间即可立刻把计算结果发送给下一个服务器的图形处理单元，从而节约了AI训练的时间消耗。

技术领域

本申请涉及人工智能领域，尤其涉及一种AI训练网络及方法。

背景技术

在人工智能领域的AI训练中，使用大量加速器(加速器例如可以是GPU、CPU，可以提供算力)进行计算，计算一个神经网络的最优结构参数，使得该网络能完成特定的工作。所谓“AI训练”，就是给机器“喂”大量的数据，让它慢慢学会识别和区分对象。例如ImageNetlK分类是一种常见的场景，在该场景中可以给定128万张图片，其中包含1000个不同的对象。同时每张照片已经给出了正确的label，即给出了该图片中的对象类别。则AI训练的任务在于找到一个合适的神经网络架构(如Alexnet)和其中每个参数的赋值，使得该网络能够尽可能正确的识别图片中的对象。

在具体实现中，多个加速器使用训练算法进行分别进行计算，并把各自的学习结果合并在一起，并在此分发给每个加速器，然后进入下一次迭代。如此经过多轮迭代运算后，机器就能习得更多的关键细节，从而显得更加智能。相较于中央处理器(CPU)而言，图形处理单元(graphics processing unit，GPU)更适合这类迭代运算，因此GPU更普遍的应用于AI训练。

随着应用场景需求的提升，神经网络规模和数据集规模急剧增长，例如NvidiaDGX-2和google TPU这样的大规模加速器服务器集群应运而生，以便提高更强的算力。随着高算力加速器集群的规模越来越大，在GPU芯片之间传递数据变得更加频繁，这导致了GPU芯片之间传递数据的快慢对整个训练过程的耗时所造成的影响越来越明显。因此，如何降低建立光通道GPU芯片之间传递数据所耗费的时间，是目前亟需解决的问题。

发明内容

第一方面，提供一种AI训练方法，应用于人工智能AI训练网络，所述AI训练网络包括第一服务器、第二服务器和光交叉连接OXC连接，其中所述第一服务器包括第一图形处理单元，所述第二服务器包括第二图形处理单元，所述第一服务器和所述第二服务器分别与所述光交叉连接OXC连接，所述方法包括：第一图形处理单元按照第一数据流图对第一数据集进行AI训练计算；在所述第一图像处理单元完成对第一数据集的AI训练计算之前，触发所述光交叉连接OXC开始进行通道切换，通道切换完成后，所述第一图形处理单元与第二图形处理单元之间的光通道建立成功；所述第一图形单元完成计算后，通过已建立完成的所述光通道发送计算结果给所述第二图形单元；所述第二图形单元使用第二数据流图对所述计算结果进行AI训练计算。

由于现有技术中占有在应用该方法，第一图形处理单元完成自身的计算之后(也就是在有数据需要传输之后)才开始启动通道的建立，因此不得不等待整个通道的建立时间。而在本实施例中，在有数据需要传输之前即开始了通道的建立，一旦位于第一服务器的第一图形处理单元完成自身的计算后，即可立刻把计算结果发送给下一个服务器的图形处理单元。无需等待同道的建立或者仅等待少量时间来等待通道的建立，从而节约了AI训练的时间消耗。

第一方面的第一种可能实现方式中，所述AI训练网络还包括主服务器。其中，所述OXC进行通道切换具体包括：所述OXC接收主服务器的通道建立指令，所述通道建立指令中想携带调整参数；所述OXC按照所述调整参数对光通道进行切换。

该方案提供了一种调整OXC的具体解决方案。

基于第一方面的第一种可能实现方式中，可选的，所述主服务器周期性发送所述通道建立指令给所述OXC。例如，主服务器根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期，以及所述OXC的通道切换时间，获得所述通道建立指令的发送周期。

该方案提供了一种根据两个图形处理单元之间发送数据的规律性，周期性指令OXC进行通道切换的方案。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华为技术有限公司，未经华为技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201980004858.6/2.html，转载请声明来源钻瓜专利网。

上一篇：鞋
下一篇：经由增强现实用于乘车共享和递送的接载和送达地点识别

同类专利

专利分类

H 电学

H04 电通信技术
H04Q 选择
H04Q11-00 多路复用系统的选择装置
H04Q11-02 .用于频分多路复用的
H04Q11-04 .用于时分多路复用的
H04Q11-06 ..时分—空分—时分交换的
H04Q11-08 ..仅有时分交换的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]AI训练网络及方法有效

专利文献下载