[发明专利]具有面向全分布式超长指令字的高能效局部互连结构的装置有效
申请号: | 201410185503.0 | 申请日: | 2014-05-05 |
公开(公告)号: | CN103955353B | 公开(公告)日: | 2017-01-18 |
发明(设计)人: | 杨乾明;董辛楠;文梅;任巨;张春元;施自龙;蓝强 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F9/30 | 分类号: | G06F9/30;G06F15/80 |
代理公司: | 国防科技大学专利服务中心43202 | 代理人: | 郭敏 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 面向 分布式 超长 指令 能效 局部 互连 结构 装置 | ||
技术领域
本发明涉及一种嵌入式处理器的面向全分布式超长指令字的多功能单元的高能效局部互连结构。
背景技术
随着通信标准、压缩原理和算法的不断演进,高性能嵌入式应用对处理器的计算性能、能效和灵活性都提出了更高的需求。在计算性能方面,万亿次量级(1000Gops)嵌入式应用开始涌现,无人作战平台、机器视觉、声纳处理、高速目标识别、数字视频、医学成像、4G手持设备等重要嵌入式应用的计算需求越过了Tops量级。在能效方面,典型嵌入式应用的需求开始突破100Mops/mW,甚至达到1000Mops/mW。由于嵌入式应用的运行环境比较严苛,对体积的要求比较高,若芯片的性能持续增长,而电池电量和散热系统得不到有效的提升(这两者都依赖于体积),那么势必要求嵌入式处理器能在单位能耗内完成更多的运算,达到更高的能效。在灵活性方面,不断演进的通信和编码标准需要嵌入式处理器具有更高的灵活性(往往意味着可编程性)和更好的扩展性(意味着需要良好的结构),以节约嵌入式处理器的使用成本。例如,对于通信基站来说,由非常多的部件组成,完整布置下来非常昂贵,这就要求当通信标准变化时,系统能够进行软件更新以适应新的通信协议,而不是去更换基站的各个部件。超大规模集成电路(VLSI)技术的飞速发展也为构建满足这种需求的高能效嵌入式处理器提供了可能,然而将VLSI潜能变成满足万亿次嵌入式应用需求的实际计算能力仍然是一项极具挑战性的工作。
超长指令字(VLIW:Very Long Instruction Word)是一种可以利用指令级并行(ILP:Instruction Level Parallel)优势的体系结构技术,在一个基本时钟周期内可发射多条指令。VLIW技术通过编译来开发ILP,使得硬件实现非常简单,通常被认为是一种高性能、低功耗的体系结构技术,在现代高性能嵌入式处理器中得到广泛使用。典型的VLIW含有大量功能单元,用以完成计算、存取等操作。这些功能单元需要同时访问大量寄存器,为减少寄存器的面积和访问延迟,可以将寄存器分块,组织成多个簇(cluster)。每个cluster内部的功能单元共享一个寄存器,cluster之间通过专门的通信机制进行通信。关于VLIW结构下的通信机制有很多,cluster之间的通信模式主要分为5种:Extend Results模式(也称为Destination Specified模式),在指令中设置一个cluster id域标明目的cluster,在结果写回时将结果写入目的cluster的寄存器;Extend Operands模式(也称为Source Specified模式),与Extend Results模式类似,也在指令中设置一个cluster id域,但是这个id标示的是源cluster,指令可以根据这个id在读操作数时将数据从源cluster读取;Copy operations模式(也称为Pure Copy模式),在正常的指令中插入copy指令,该指令从本地寄存器中读取数据,然后通过专门的网络写入另一个cluster的寄存器;Dedicated Issue Slots模式,和Copy Operations模式类似,但是在该结构中设置有专门的功能单元来执行copy操作,可以避免对正常指令执行的打扰;Broadcasting模式,另外设置一个共享寄存器文件,可以供所有cluster访问。这些研究大都从性能的角度来研究互连结构,很少考虑能耗;同时,这些研究主要考虑cluster之间的通信,没有考虑cluster内部的具体通信模式,而cluster内部的通信是要远多于cluster之间的通信。
当VLIW中的每个cluster只含有一个功能单元时,就形成了全分布式的结构。超长指令字结构机器中有大量的功能单元,功能单元之间因可能的操作数和结果数的交互而必须存在可达的数据通路。传统的做法采用全互联结构。假设全分布式VLIW机器中有n个功能单元ALU0,ALU1,ALU2,…,ALUn-1;相应的有n条总线;n由体系结构所需要的功能单元数决定。功能单元ALU0,ALU1,ALU2,…,ALUn-1分别将它们的结果输出到0号总线、1号总线、2号总线、…、n-1号总线上;如果功能单元ALUm需要另一功能单元ALUk的上一时钟节拍结果,作为ALUm在当前时钟节拍的输入,则ALUm可在当前拍从k号总线上取到所需要的数据;m和k均不超过n。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410185503.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种猪圆环病毒2型纯化方法
- 下一篇:鼠标和键盘可被远程控制和加密的方法