[发明专利]具有包括多端口存储器的向量寄存器文件的矩阵向量乘法器在审
申请号: | 201980026843.X | 申请日: | 2019-04-06 |
公开(公告)号: | CN112005214A | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | J·弗沃斯;K·奥恰洛夫;E·S·钟;T·M·马森吉尔;刘明罡;G·L·韦兹 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 黄倩 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 包括 多端 存储器 向量 寄存器 文件 矩阵 乘法器 | ||
提供了神经网络处理器和相关方法,神经网络处理器包括向量寄存器文件(VRF),向量寄存器文件(VRF)具有多端口存储器。处理器可以包括瓦片,以对数据元素的N乘N矩阵和数据元素的N乘1向量进行处理。VRF可以响应于写入指令,将N个数据元素存储在多端口存储器中,并且在P个时钟周期中的每个时钟周期期间,向多端口存储器的P个输入接口电路中的每个输入接口电路提供N个数据元素,输入接口电路包括输入通道,输入通道被配置为并行承载L个数据元素。在P个时钟周期中的每个时钟周期期间,多端口存储器可以被配置为经由P个输入接口电路中所选择的至少一个输入接口电路来接收N个数据元素。VRF可以包括输出接口电路,输出接口电路用于响应于读取指令而提供N个数据元素。
背景技术
神经网络技术被用于执行复杂的任务,诸如,阅读理解、语言翻译、图像识别或语音识别。机器学习服务(诸如,基于递归神经网络(RNN)、卷积神经网络(CNN)、长短期记忆(LSTM)神经网络或门控递归单元(GRU)的那些机器学习服务)已被部署来执行这样的复杂任务。虽然这些类型的神经网络已被部署,但是仍需要不断改进用于执行这些复杂任务的基础设施和对应指令。
发明内容
在一个示例中,本公开涉及处理器,处理器包括向量寄存器文件,向量寄存器文件包括多端口存储器(例如,双端口存储器)。处理器还可以包括多个瓦片,多个瓦片被配置为对数据元素的N乘N矩阵和数据元素的N乘1向量进行处理,其中N是等于或大于8的整数,并且其中多个瓦片中的每个瓦片被配置为对N个数据元素进行处理。向量寄存器文件可以被配置为响应于写入指令,在单个时钟周期期间,将N个数据元素存储在多端口存储器中,并且在P个时钟周期中的每个时钟周期期间,向多端口存储器的P个输入接口电路中的每个输入接口电路提供N个数据元素,其中P是等于N除以L的整数,其中L是等于或大于2的整数,并且其中P个输入接口电路中的每个输入接口电路包括输入通道,输入通道被配置为并行承载L个数据元素,并且其中在P个时钟周期中的每个时钟周期期间,多端口存储器被配置为经由P个输入接口电路中所选择的至少一个输入接口电路来接收N个数据元素。
向量寄存器文件还可以被配置为响应于读取指令,在单个时钟周期期间,从多端口存储器取回N个数据元素,并且在Q个时钟周期中的每个时钟周期期间,从多端口存储器的Q个输出接口电路中的每个输出接口电路提供L个数据元素,其中Q是等于N除以L的整数,并且其中Q个输出接口电路中的每个输出接口电路包括输出通道,输出通道被配置为并行承载L个数据元素,并且其中在Q个时钟周期中的每个时钟周期期间,多端口存储器被配置为向Q个输出接口电路中所选择的至少一个输出接口电路提供N个数据元素。
在另一示例中,本公开涉及系统中的方法,系统包括多个瓦片和向量寄存器文件,向量寄存器文件包括双端口存储器,其中多个瓦片中的每个瓦片被配置为对数据元素的N乘N矩阵和数据元素的N乘1向量进行处理,其中N是等于或大于8的整数,并且其中多个瓦片中的每个瓦片被配置为对N个数据元素进行处理。
方法可以包括:响应于写入指令,在单个时钟周期期间,将N个数据元素存储在双端口存储器中,并且在P个时钟周期中的每个时钟周期期间,向双端口存储器的P个输入接口电路中的每个输入接口电路提供N个数据元素,其中P是等于N除以L的整数,其中L是等于或大于2的整数,并且其中P个输入接口电路中的每个输入接口电路包括输入通道,输入通道被配置为并行承载L个数据元素,并且其中在P个时钟周期中的每个时钟周期期间,双端口存储器被配置为经由P个输入接口电路中所选择的一个输入接口电路来接收N个数据元素。
方法还可以包括:响应于读取指令,在单个时钟周期期间,从双端口存储器取回N个数据元素;以及在Q个时钟周期中的每个时钟周期期间,从双端口存储器的Q个输出接口电路中的每个输出接口电路提供L个数据元素,其中Q是等于N除以L的整数,并且其中Q个输出接口电路中的每个输出接口电路包括输出通道,输出通道被配置为并行承载L个数据元素,并且其中在Q个时钟周期中的每个时钟周期期间,双端口存储器被配置为向Q个输出接口电路中所选择的一个输出接口电路提供N个数据元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980026843.X/2.html,转载请声明来源钻瓜专利网。