[发明专利]计算优化机制有效
申请号: | 201910576830.1 | 申请日: | 2018-04-23 |
公开(公告)号: | CN110288509B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | A·R·阿普;A·考克;L·L·赫德;D·金;M·B·麦克弗森;J·C·韦斯特;陈峰;F·阿赫巴里;N·斯里尼瓦萨;N·R·萨蒂什;J·雷;P·T·唐;M·S·斯特里克兰;陈晓明;姚安邦;T·史佩斯曼 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06N3/02 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 优化 机制 | ||
1.一种图形处理器,包括:
存储器控制器;
第二级L2高速缓存存储器,与所述存储器控制器耦合;以及
多处理器,耦合到所述存储器控制器,所述多处理器具有包括硬件多线程的单指令多线程(SIMT)架构,
所述多处理器包括调度器、多个处理核、以及耦合到所述多个处理核的共享存储器,
其中,所述调度器用于调度指令以用于由所述多个处理核执行,并且
所述多个处理核包括混合精度核以用于响应于所述指令执行混合精度多维矩阵乘法和累加操作,
其中,为了执行所述混合精度多维矩阵乘法和累加操作,所述混合精度核用于执行操作D=A*B+C,其中,A、B、C和D是矩阵元素,A和B是16位浮点元素,并且C能被选择为16位浮点元素或32位浮点元素。
2.如权利要求1所述的图形处理器,其特征在于,所述多处理器附加地包括寄存器堆以用于存储操作数。
3.如权利要求2所述的图形处理器,其特征在于,所述多处理器用于将与所述操作D=A*B+C的操作数相关联的数据从存储器加载到所述寄存器堆中。
4.如权利要求3所述的图形处理器,其特征在于,所述多处理器用于将与所述操作D=A*B+C的操作数相关联的数据从共享存储器加载到所述寄存器堆中。
5.如权利要求4所述的图形处理器,其特征在于,所述多处理器用于响应于从所述共享存储器的加载将与所述操作D=A*B+C的操作数相关联的数据从所述L2高速缓存存储器加载到所述寄存器堆中。
6.如权利要求1所述的图形处理器,其特征在于,进一步包括指令高速缓存以用于存储用于在所述多处理器处执行的指令,其中将所述指令作为多个线程的经线来执行。
7.如权利要求1所述的图形处理器,其特征在于,所述混合精度核进一步用于执行操作D=A*B+C,其中A和B是8位整数元素,并且C是32位整数元素。
8.如权利要求1所述的图形处理器,其特征在于,A和B各自包括与神经网络的层相关联的多个值。
9.如权利要求8所述的图形处理器,其特征在于,A或B各自包括与神经网络的所述层的权重或神经网络的所述层的输入相关联的多个值。
10.如权利要求1所述的图形处理器,其特征在于,进一步包括分派单元,以用于分派所述指令的一个或多个线程以用于由所述混合精度核执行。
11.如权利要求1所述的图形处理器,其特征在于,附加地包括栅格操作单元,所述栅格操作单元与所述存储器控制器耦合。
12.如权利要求1所述的图形处理器,其特征在于,附加地包括存储器压缩器,以用于压缩经由所述存储器控制器写入到存储器的数据。
13.一种图形处理系统,包括:
图形存储器设备;
存储器控制器,耦合到所述图形存储器设备;
第二级L2高速缓存存储器,与所述存储器控制器以及所述图形存储器设备耦合;以及
多处理器,耦合到所述存储器控制器,所述多处理器具有包括硬件多线程的单指令多线程(SIMT)架构,所述多处理器包括调度器、多个处理核、以及耦合到所述多个处理核的共享存储器,其中,所述调度器用于调度指令以用于由所述多个处理核执行,并且所述多个处理核包括混合精度核以用于响应于所述指令执行混合精度多维矩阵乘法和累加操作,其中,为了执行所述混合精度多维矩阵乘法和累加操作,所述混合精度核用于执行操作D=A*B+C,其中,A、B、C和D是矩阵元素,A和B是16位浮点元素,并且C能被选择为16位浮点元素或32位浮点元素。
14.如权利要求13所述的图形处理系统,其特征在于,所述多处理器附加地包括寄存器堆以用于存储操作数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910576830.1/1.html,转载请声明来源钻瓜专利网。