[发明专利]用于具有动态向量长度和码本大小的高吞吐量向量去量化的灵活硬件有效
申请号: | 201880025227.8 | 申请日: | 2018-04-06 |
公开(公告)号: | CN110520870B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | A·A·安巴德卡;A·托米克;C·B·麦克布赖德;G·彼得;K·D·塞多拉;L·M·瓦尔;B·博布罗夫 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06N3/06 | 分类号: | G06N3/06;G06F9/50 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 丁君军 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 具有 动态 向量 长度 大小 吞吐量 量化 灵活 硬件 | ||
神经网络(NN)和/或深度神经网络(DNN)的性能可以由正执行的操作数目以及NN/DNN的存储器数据管理来限制。使用神经元权重值的向量量化,神经元的数据的处理可以优化操作的数目以及存储器利用以便增强NN/DNN的总体性能。操作地,权重值的一个或多个连续段可以被转换为任意长度的一个或多个向量,并且一个或多个向量中的每个向量可以被分配有索引。所生成的索引可以被存储在示例性向量量化查找表中并且在飞行中在运行时由示例性快速权重查找硬件来取回,作为NN的示例性数据处理功能的一部分,作为内联去量化操作的一部分,以获得所需要的一个或多个神经元权重值。
背景技术
在人工神经网络(NN)中,神经元是用于对大脑中的生物神经元进行建模的基本单元。人工神经元的模型包括输入向量与添加到具有应用的非线性的偏置的权重向量的内积。对于深度神经网络(DNN)(例如,如由示例性DNN模块所表达),神经元可以紧密地映射到人工神经元。
在跨NN或DNN处理数据中,执行示例性处理操作的示例性神经元被要求以处理大量的数据以便应用各种数据处理/操纵操作,其可能影响导致对期望的状态处理目标不利的关键潜在因素的总体NN或DNN性能(例如,标识示例性输入数据中的对象和/或对象特性——图像、声音、地理坐标等)。通常,现有NN和DNN在执行这些各种操作时花费可避免的处理时间(例如,每秒浮动/固定点操作(每秒所执行的浮点运算次数,GFlops/s))和存储器空间(例如,每秒传送的字节数(每秒G字节数,GBytes/s))。特别地,当前实践要求在由人工神经元处理之前从协作存储器部件读取神经元权重值。通常,权重值可以被存储在通用存储器(诸如DRAM)中或者被高速缓存在快速本地存储器(诸如SRAM)中。利用通用存储器,要求时间和功率以读取权重值。利用本地存储器,高性能高速缓存存储器是昂贵的,并且通常是大小有限的。由于可避免的时间/功率被要求或者直接地从通用存储器或者间接地从本地高速缓存存储器读取权重值,因而当前实践缺乏完全优化NN/DNN的处理能力。
克服当前实践的低效率的传统方法是降低权重数据的精度以降低所要求的存储器量。例如,32位浮点权重值可以减少到16位半精度值,其导致权重存储器要求中的50%节省。具有权重值的精度的大降低的问题是结果准确度的降低。
更有利的NN/DNN将部署操作地允许更多权重值表示在给定量的本地存储器中的神经元权重值的向量量化的使用,其进而减少将权重值从主存储器加载到本地存储器高速缓存中的开销和/或降低所要求的本地存储器量。特别地,向量量化过程可以利用查找表将权重编码转换为权重数据。操作地,通过利用向量量化,整个权重团块可以操作地解译为可以在运行时期间解码的权重编码。
更特别地,权重值的向量量化操作地可以将权重值的连续段转换为任意长度的向量(例如,2个权重值、4个权重值等)并且每个向量可以分配有索引值。在要求权重值的神经元计算操作的执行期间,索引被用于引用查找表中被用于计算的特定向量。由于单个索引被用于引用多个权重值,因而实现存储器空间的降低,而不必降低权重值的精度。
所呈现的本文中做出的公开内容关于这些考虑和其他考虑。
发明内容
本文所描述的技术提供使用神经元权重值的向量量化来减少示例性神经网络(NN)和/或深度神经网络(DNN)环境的存储器要求和处理周期。本文所描述的系统和方法的方面涉及机器/人工智能(MI)硬件架构。这样的架构和其实现可以被称为“NN”。在说明性实现中,示例性NN中的向量量化(VQ)的使用可能导致读取权重值的有效神经元性能的增加。在说明性操作中,一个或多个索引可以被存储到可以利用快速查找表(物理或虚拟)表示权重值的一个或多个向量行。“权重”可以被认为是当处理一个或多个数据元素时由神经元处理器消耗的数值。权重值的可能格式可以为可以是有符号或无符号、字节、整数和/或浮点的任意位长度。由于索引而不是全部权重数据存储,因而存储器传送中的降低能够通过使用向量量化实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880025227.8/2.html,转载请声明来源钻瓜专利网。