[发明专利]使用主机传达的合并权重和每层指令的封装通过神经网络加速器进行的多层神经网络处理在审

申请号：	201880067687.7	申请日：	2018-10-16
公开（公告）号：	CN111226231A	公开（公告）日：	2020-06-02
发明（设计）人：	A·吴;E·德拉耶;E·盖塞米;滕晓;J·泽杰达;吴永军;S·塞特勒;A·西拉萨奥	申请（专利权）人：	赛灵思公司
主分类号：	G06N3/063	分类号：	G06N3/063;G06N3/04
代理公司：	北京市金杜律师事务所 11256	代理人：	傅远
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	使用主机传达合并权重指令封装通过神经网络加速器进行多层处理
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

在所公开的用于在神经网络系统中进行处理的方法和系统中，主机计算机系统(402)将与神经网络的多个层相关联的多个权重矩阵写入(602)到与神经网络加速器(238)共享的存储器(226)中。主机计算机系统还将多个每层指令组装(610)为指令封装。每个每层指令指定对神经网络的多个层中的相应层的处理以及共享存储器中权重矩阵的相应偏移。主机计算机系统将输入数据和指令封装写入(612，614)到共享存储器。神经网络加速器从共享存储器中读取(702)指令封装，并且处理(702‑712)指令封装的多个每层指令。

技术领域

本公开大体上涉及神经网络处理。

背景技术

机器学习是使计算系统无需明确编程即可采取行动的科学。传统机器学习包括各种聚类和分类技术，包括K-means聚类、线性和逻辑回归、随机梯度下降、关联规则学习等。深度学习是机器学习中的较新前沿。深度学习是一类机器学习算法，其使用多层非线性处理单元进行特征提取和变换。深度学习算法可以不受监督(例如，模式分析)或受监督(例如，分类)。深度学习算法可以使用人工神经网络(ANN)(在本文中被称为“神经网络”)的各层来实现。

一般而言，神经网络是在曲线图中连接的节点(即“神经元”)的集合。神经网络中的节点计算加权输入的总和，并且向总和添加可选偏差。节点的输出是最终总和的函数(称为“激活函数”)。示例激活函数包括S形函数、双曲正切(tanh)函数、整流线性单元(ReLU)函数和恒等函数。神经网络模型通常组织为节点的各层，这些层定义了特定拓扑结构以及对应的权重和偏差。权重和偏差被称为网络参数。

一般而言，神经网络包括输入层和输出层，并且可以可选地包括输入层和输出层之间的一个或多个隐藏层。用于深度学习应用的神经网络通常包括许多隐藏层，这导致出现术语“深度神经网络(DNN)”。神经网络的层可以紧密连接(例如，一层中的每个节点都完全连接到上一层中的所有节点)，还可以稀疏连接(例如，一层中的每个节点仅连接到上一层中的节点中的一部分节点)。卷积神经网络(CNN)是一种DNN，其包括一个或多个稀疏连接的层，被称为卷积层。CNN非常适合处理图像或视频数据。其他类型的DNN包括递归神经网络(RNN)，其非常适合处理语音和文本数据。

现场可编程门阵列(FPGA)已经用于实现加速从软件调用的功能的电路。加速从软件调用的功能的电路被称为硬件加速器。硬件加速器的示例包括实现为FPGA电路的各种图像过滤器，这些图像过滤器可以从图像处理软件调用。

基于FPGA的实现方式包括：主机计算机系统将权重和输入数据传送到FPGA可访问存储器；以及将输出数据传送到主机计算机系统。主机计算机系统和FPGA加速器之间的数据传送会降低性能。与其他常用的神经网络(NN)实现方式(诸如在CPU或GPU上)相比，因为FPGA电路可以比GPU更快地处理数据，并且在该过程中消耗的功率更少，所以基于FPGA的实现方式可能是有利的。

发明内容

公开了一种神经网络系统中的处理方法，包括：通过主机计算机系统将与神经网络的多个层相关联的多个权重矩阵写入与神经网络加速器共享的存储器。主机计算机系统还将多个每层指令组装为指令封装。每个每层指令指定对神经网络的多个层中的相应层的处理，以及共享存储器中权重矩阵的相应偏移。主机计算机系统将输入数据和指令封装写入共享存储器。神经网络加速器从共享存储器读取指令封装，并且处理指令封装的多个每层指令。

公开了一种神经网络处理系统，包括共享存储器；主机计算机系统，其耦合到共享存储器；以及神经网络加速器，其耦合到共享存储器。主机计算机系统配置有指令，当该指令被执行时，使得主机计算机系统将与神经网络的多个层相关联的多个权重矩阵写入共享存储器。主机计算机系统还被编程为将多个每层指令组装为指令封装。每个每层指令指定对神经网络的多个层中的相应层的处理，以及共享存储器中权重矩阵的相应偏移。主机计算机系统将输入数据和指令封装写入共享存储器。神经网络加速器被配置为从共享存储器读取指令封装并且处理指令封装的多个每层指令。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于赛灵思公司，未经赛灵思公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201880067687.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]使用主机传达的合并权重和每层指令的封装通过神经网络加速器进行的多层神经网络处理在审

专利文献下载