[发明专利]一种用于人工智能加速的处理器微架构及其指令集组合应用方法在审
申请号: | 201910304828.9 | 申请日: | 2019-04-16 |
公开(公告)号: | CN111832722A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 伍世聪;林森;李珏 | 申请(专利权)人: | 北京芯启科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/06 |
代理公司: | 北京名华博信知识产权代理有限公司 11453 | 代理人: | 李冬梅;苗源 |
地址: | 100091 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 人工智能 加速 处理器 架构 及其 指令 组合 应用 方法 | ||
本发明提供一种采用组合指令的AI指令集系统,此设计适用于人工智能应用中的特殊函数计算加速,兼具灵活性与效率的计算机制。设计包括:指令译码电路(DECODER),公式迭代器(ITERATOR),计算合并单元(MERGE)。译码电路译码迭代指令和合并指令,输出迭代公式类型,迭代次数,合并操作类型等,迭代器与合并单元并行执行,完成指定迭代次数后输出结果。
技术领域
本发明属于计算机硬件、人工智能硬件加速的领域,数字集成电路设计领域。
背景技术
深度卷积神经网络算法由多层具体的神经元算法层、隐藏层组成,主要包含有卷积层,激活函数,池化层等。其中激活函数有多种,要求硬件加速具有一定的灵活性。在这个特定领域中,许多发明通过高性能CPU来提供一般性、通用性的数学计算,或通过GPU来加速更具有规律的卷积计算,以及通过FPGA来定制加速某些计算过程。其中寒武纪的芯片采用在微架构上叠加特定执行装置的方法来增加所支持的数学算子。但还没有针对神经网络知识领域内的计算任务本身进行抽象、提取融合算子内共同的本质操作,而只有这样的设计才能开发出更有知识领域针对性的、高效强大的处理器。
发明内容
本发明提供用于人工智能加速的处理器微架构及其指令集组合应用方法,原理是参考函数的泰勒展开,由公式迭代器和结果合并单元共同构成函数求解电路,迭代指令指导公式迭代器生成通项部分,合并指令指导合并单元将通项部分按指定公式合并。达到迭代次数后输出结果。
结合常见的泰勒展开式本发明的一种实例
迭代指令指定迭代变量的来源寄存器号(X1、X2),以及各自的迭代公式类型(TYPE1、TYPE2)。迭代公式类型有:
公式 备注 n 1 2 3 4 5…… n! 1 2 6 24 120…… (2n+1)!*(-1)^n 1 -6 120 -5040…… (2n)!*(-1)^n 1 -2 24 -720……
合并公式指定用于合并的运算类型(OP1、OP2),以及迭代次数N,迭代
公式类型有:
加ADD
减SUB
乘MUL
除DIV
幂POW
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京芯启科技有限公司,未经北京芯启科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910304828.9/2.html,转载请声明来源钻瓜专利网。