[发明专利]使用脉动阵列和融合操作的深度学习实现方式在审
申请号: | 202010580261.0 | 申请日: | 2020-06-23 |
公开(公告)号: | CN112559051A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 威廉·拉什;苏布拉马尼亚姆·迈尤兰;瓦格斯·乔治;布雷特·L·托尔;拉杰什·桑卡兰;罗伯特·查佩尔;萨普拉蒂姆·帕尔;亚力山大·F·海涅克;埃尔莫斯塔法·乌尔德-艾哈迈德-瓦尔;陈刚 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/38 | 分类号: | G06F9/38;G06F9/30;G06N3/04;G06N3/063 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 杨佳婧 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 脉动 阵列 融合 操作 深度 学习 实现 方式 | ||
公开的实施例涉及使用脉动阵列和融合操作的深度学习实现方式。在一个示例中,处理器包括取得和解码电路来取得和解码指令,该指令具有字段来指定操作码以及目的地和N个源矩阵的位置,操作码指示出处理器将从存储器加载N个源矩阵,对N个源矩阵执行N个卷积以生成N个特征图,并且将N个卷积的结果存储在寄存器中以被传递到激活层,其中处理器将利用N个源矩阵的每一者的至多一个存储器加载执行N个卷积和激活层。处理器还包括调度电路来调度指令的执行以及执行电路来按照操作码执行指令。
技术领域
本发明的领域概括而言涉及计算机处理器体系结构,并且更具体而言涉及使用脉动阵列(systolic array)和融合操作(fused operation)的深度学习(deep learning)实现方式。
背景技术
矩阵在诸如机器学习和其他海量数据处理之类的许多计算任务中越来越重要。深度学习体系结构,例如深度神经网络,已被应用到包括计算机视觉、话音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计在内的领域。
不幸的是,基于深度学习的机器学习系统的广泛采用和应用面临着与计算要求、功率消耗和存储器带宽利用有关的挑战。例如,深度学习神经网络模型的大小可以是许多兆字节并且要求每秒数百万的算术操作来高效地处理。
发明内容
根据本公开的一方面,提供了一种处理器,包括:取得电路,用于取得指令;解码电路,用于对所述指令解码,所述指令具有字段来指定操作码以及目的地和N个源矩阵的位置,所述操作码指示出所述处理器将从存储器加载所述N个源矩阵,对所述N个源矩阵执行N个卷积以生成N个特征图,并且将所述N个卷积的结果存储在寄存器中以被传递到激活层,其中所述处理器将利用所述N个源矩阵的每一者的至多一个存储器加载执行所述N个卷积和所述激活层;调度电路,用于调度所述指令的执行;以及执行电路,用于按照所述操作码执行所述指令。
根据本公开的一方面,提供了一种由处理器实现的方法,包括:利用取得电路取得指令;利用解码电路对所述指令解码,所述指令具有字段来指定操作码以及目的地和N个源矩阵的位置,所述操作码指示出所述处理器将从存储器加载所述N个源矩阵,对所述N个源矩阵执行N个卷积以生成N个特征图,并且将所述N个卷积的结果存储在寄存器中以被传递到激活层,其中所述处理器将利用所述N个源矩阵的每一者的至多一个存储器加载执行所述N个卷积和所述激活层;利用调度电路调度所述指令的执行;并且利用执行电路按照所述操作码执行所述指令。
根据本公开的一方面,提供了一种包含指令的非暂态机器可读介质,处理器通过以下步骤来响应所述指令:利用取得电路取得指令;利用解码电路对所述指令解码,所述指令具有字段来指定操作码以及目的地和N个源矩阵的位置,所述操作码指示出所述处理器将从存储器加载所述N个源矩阵,对所述N个源矩阵执行N个卷积以生成N个特征图,并且将所述N个卷积的结果存储在寄存器中以被传递到激活层,其中所述处理器将利用所述N个源矩阵的每一者的至多一个存储器加载执行所述N个卷积和所述激活层;利用调度电路调度所述指令的执行;并且利用执行电路按照所述操作码执行所述指令。
根据本公开的一方面,提供了一种装置,包括:用于取得指令的装置;用于对所述指令解码的装置,所述指令具有字段来指定操作码以及目的地和N个源矩阵的位置,所述操作码指示出处理器将从存储器加载所述N个源矩阵,对所述N个源矩阵执行N个卷积以生成N个特征图,并且将所述N个卷积的结果存储在寄存器中以被传递到激活层,其中所述处理器将利用所述N个源矩阵的每一者的至多一个存储器加载执行所述N个卷积和所述激活层;用于调度所述指令的执行的装置;以及用于按照所述操作码执行所述指令的装置。
附图说明
在附图中以示例而非限制方式图示了本发明,附图中相似的标记指示类似的要素并且其中:
图1A图示了配置的分片的实施例;
图1B图示了配置的分片的实施例;
图2图示了矩阵存储的若干个示例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010580261.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:生产线管理系统及生产线管理系统的管理方法
- 下一篇:半导体存储装置