[发明专利]用于卷积内核的自动生成和调谐工具在审

申请号：	201910201492.3	申请日：	2019-03-18
公开（公告）号：	CN111723918A	公开（公告）日：	2020-09-29
发明（设计）人：	王飞;杨建	申请（专利权）人：	超威半导体公司
主分类号：	G06N3/063	分类号：	G06N3/063
代理公司：	上海胜康律师事务所 31263	代理人：	李献忠;张静
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于卷积内核自动生成调谐工具
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

公开了用于实现用于卷积内核的自动生成和调谐工具的系统、设备和方法。处理器执行神经网络的给定层的多个调谐运行，同时将不同运算参数值集用于每个调谐运行。所述运算参数可以包括输入数据集获取组大小、输出通道组大小和其他参数中的一者或多者。所述处理器捕获每个调谐运行的性能数据，并且随后在所有的调谐运行完成之后，所述处理器确定哪个运算参数值集导致给定神经网络层的更好性能。所述处理器使用这些运算参数值来进行所述给定层的后续迭代。所述处理器还对其他层执行相同的技术，以确定将哪个运算参数值集用于每个层以便最大化所述神经网络的性能。

背景技术

图形处理单元(GPU)是执行图形处理任务的复杂集成电路。例如，GPU执行诸如视频游戏应用程序等终端用户应用程序所要求的图形处理任务。GPU还越来越多地被用来执行与图像无关的其他任务。在一些实现方式中，GPU是离散装置或者与诸如中央处理单元(CPU)等另一处理器被包括在相同装置中。

在诸如由GPU执行的图形处理应用程序等很多应用程序中，处理工作项序列(其也可以被称为线程)以便输出最终结果。在一个实现方式中，每个处理元件执行特定工作项的相应实例化以处理输入数据。工作项是在计算单元上调用的内核的并行执行集合中的一者。工作项与所述集合内的其他执行的区别在于全局ID和局部ID。如本文所使用，术语“计算单元”被定义为执行多个工作项的同步执行的处理元件(例如，单指令多数据(SIMD)单元)的集合。每计算单元的处理元件的数量可以因实现方式而改变。同时在计算单元上一起执行的工作组中的工作项的子集可以被称为波前(wavefront)、经纱(warp)或矢量(vector)。波前的宽度是计算单元的硬件的特性。如本文所使用，波前的集合被称为“工作组”。而且，“波前”在本文中也可以被称为“波(wave)”。

新兴技术领域是机器学习，其中神经网络是一种类型的机器学习模型。在GPU或其他并行处理单元(例如，数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC))上实施神经网络涉及加载和处理大量的数据。卷积神经网络通常包括很多层，诸如卷积层、池化层、归一化层等等。卷积层使用卷积内核对输入数据集(例如，图像)进行滤波。内核通常是小矩阵，并且内核也可以被称为卷积矩阵。内核用于模糊、锐化、浮雕、边缘检测等等。卷积层在内核与图像之间执行卷积。

神经网络用在广泛多种应用中(例如，手写数字分类、人脸检测)。神经网络已经在诸如手写数字分类和人脸检测等任务方面展示出卓越的性能。另外，神经网络也显示出在其他更具挑战的视觉分类任务中表现良好的希望。神经网络的其他应用包括语音识别、语言模型、情感分析、文本预测以及其他应用。然而，神经网络经常使用大量的处理和存储器资源。

附图说明

通过结合附图参考以下描述可以更好地理解本文所述方法和机制的优点，在附图中：

图1是计算系统的一个实现方式的框图。

图2是计算系统的另一实现方式的框图。

图3是神经网络的一个实现方式的框图。

图4是神经网络的另一实现方式的框图。

图5是用于卷积内核的自动生成和调谐工具的一个实现方式的框图。

图6是用于卷积内核的自动生成和调谐工具的数据路径的一个实现方式的框图。

图7是由计算单元生成输出数据集的一个实现方式的框图。

图8是示出用于实施用于卷积内核的自动生成和调谐工具的方法的一个实现方式的概括性流程图。

图9是示出用于在实施神经网络时自动调谐内核以便优化性能的方法的一个实现方式的概括性流程图。

具体实施方式