[发明专利]数据传递及合并的方法在审
申请号: | 202011293554.7 | 申请日: | 2020-11-18 |
公开(公告)号: | CN114519166A | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 林裕盛;陈维超;陈佩君 | 申请(专利权)人: | 英业达科技有限公司;英业达股份有限公司 |
主分类号: | G06F17/15 | 分类号: | G06F17/15;G06N3/063;G06N3/04 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 徐秋平 |
地址: | 201114 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 传递 合并 方法 | ||
本发明公开了一种数据传递及合并的方法,适用于彼此通讯连接的发送端及接收端,所述方法包括:发送端阶段以及接收端阶段。发送端阶段包含:传送第一区块数据、第二区块数据及第三区块数据至接收端,取得第四区块数据及第五区块数据及传送第三区块数据、第四区块数据及第五区块数据至接收端。接收端阶段包含接收第一区块数据、第二区块数据及第三区块数据,合并第一区块数据、第二区块数据及第三区块数据以进行一卷积运算,接收第四区块数据、第五区块数据,及合并第三区块数据、第四区块数据及第五区块数据以进行另一卷积运算。
技术领域
本发明关于卷积神经网络加速器,特别是一种在平铺式处理的卷积运算中切割数据进行传递及合并数据的方法。
背景技术
卷积神经网络(Convolution Neural Network,CNN)是目前被认为在电脑视觉及影像处理上最广泛被使用的机器学习技术之一。卷积神经网络的主要运算是卷积核(kernel)与特征图(feature map)之间的卷积,其通过乘积累加(Multiply Accumulate,MAC)运算而消耗大量功率。
比起冗余运算的能源浪费,如何提升数据存取能力以及减少数据传输频宽在未来的加速器设计中更加重要。一则因为存储器频宽成长速度慢于处理单元的运算速度,意味着相同的演算法可能受限于存储器及其架构;二则因为目前的神经网络多采用小卷积核配合更深的网络,这样减少了MAC运算但增加了存储器用量。据统计,随着神经网络的模型演进,在动态随机存取存储器(Dynamic Random Access Memory,DRAM)上存取特征图所消耗的功率比起其他运算消耗的功率更加可观。
目前的CNN通常采用平铺式处理(tiled processing),也就是处理单元每次从外部储存器载入一个区块进行运算。例如:外部储存器DRAM储存的数据区块未经压缩而直接被载入至靠近处理单元的静态随机存取存储器(Static Random Access Memory,SRAM)作为快取。然而,这种方式在每次切换处理区块时而存取DRAM时,需要消耗大量的功率并占用大量的存储器频宽。例如:将DRAM储存的数据切割成多个相同大小的子张量并且压缩,再将压缩后的各个子张量传送至SRAM解压缩,处理单元从SRAM提取所需的区块数据进行运算。虽然压缩区块数据可以节省数据传输时消耗的功率及占用的频宽,然而,若子张量切割大小设置过大,可能导致SRAM储存本次处理时不会使用的数据,造成SRAM空间的浪费。或者为了取得完整的区块数据,而花费时间解压缩大文件,但其中只有少量数据可用。另一方面,若子张量切割大小设置过小,为了以正确的顺序解压缩还原出完整的区块数据,需要额外占用频宽载入大量的指标以获取每一个压缩文件所属的位置。
发明内容
有鉴于此,本发明提出一种有效率且硬件导向的数据存取方案,适用于CNN的特征图。本发明将数据分割为不同大小的子张量(subtensor),并且使用少量的指标,在已压缩但是随机存取的格式下储存这些子张量。这种设计使目前的CNN加速器能够以平铺式处理的方式即时获取和解压缩子张量。本发明适用于需要对齐、合并的数据存取架构,并且只需要对现有架构进行小幅度的修改即可适用于本发明。
依据本发明一实施例的一种数据传递及合并的方法,适用于彼此通讯连接的发送端及接收端,所述方法包括:发送端阶段以及接收端阶段。发送端阶段包含:传送第一区块数据、第二区块数据及第三区块数据至接收端,取得第四区块数据及第五区块数据及传送第三区块数据、第四区块数据及第五区块数据至接收端。接收端阶段包含接收第一区块数据、第二区块数据及第三区块数据,合并第一区块数据、第二区块数据及第三区块数据以进行一卷积运算,接收第四区块数据、第五区块数据,及合并第三区块数据、第四区块数据及第五区块数据以进行另一卷积运算。
综上所述,本发明提出了一种用于输入特征图的有效储存方案,可减少外部储存器的频宽,并且符合现有的CNN加速器架构中的储存器存取模式。给定特定的CNN层和加速器配置,本发明可将张量数据切割为特定大小的多个子张量。现有的CNN加速器可在少量的硬件修改之下整合本发明。以提升整体效能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英业达科技有限公司;英业达股份有限公司,未经英业达科技有限公司;英业达股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011293554.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种边缘环组件、边缘环更换方法以及静电卡盘
- 下一篇:永磁隔膜泵
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置