[发明专利]数据对象的分频处理系统及其方法有效
申请号: | 202010724568.3 | 申请日: | 2020-07-24 |
公开(公告)号: | CN111737007B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 柳俊丞;郭冉;谢暄;袁进辉 | 申请(专利权)人: | 北京一流科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F17/18 |
代理公司: | 北京金讯知识产权代理事务所(特殊普通合伙) 11554 | 代理人: | 黄剑飞 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 对象 分频 处理 系统 及其 方法 | ||
本公开提供了一种数据对象的分频处理系统及其方法,包括:数据对象表生成单元,统计数据对象的出现频率,并按照频率高低顺序对每个数据对象进行排序标记,形成数据对象表;数据张量生成单元,将原始数据按照数据对象表转换成适于执行嵌入操作的嵌入输入张量;以及数据对象分配单元,基于数据加速处理设备的预定内存容量,划分为高频数据对象表和低频数据对象表,并形成高频输入张量和高频输入索引张量,以及低频输入张量和低频输入索引张量,以便加速处理设备的嵌入单元进行嵌入处理获得高频输出以及数据常规处理设备的嵌入单元进行嵌入处理获得低频输出。
技术领域
本公开涉及一种数据处理技术,更具体地说,本公开涉及一种数据对象的分频处理系统及其方法。
背景技术
随着分布式计算的普及,大数据处理以及深度学习在生活中的各个方面得到广泛的应用。词嵌入是深度学习中自然语言处理(NLP)或者点击率预测(CTR)等任务常用的技术。实际应用中,被嵌入的可能是一个词,也可能是一个物品或者一个用户。在深度学习应用中,词嵌入通常表现由权重、输入、输出组成的模块,其中输入是一个包含词或者物品的张量,其中的词或者物品被编码为连续的令牌身份(token id),不同的词或者物品被编码为不同的id;权重通常是一个形状为[V, E]的矩阵,其中E为嵌入的维数,V为词表的大小,矩阵中第i行的向量即为token id 为i的词或者物品对应的嵌入向量;输出为根据输入中的token id 在权重矩阵中取出对应的向量组成的新的张量。权重矩阵的内容一般通过反向传播等方式训练。
大规模词嵌入通常指输入的词或者物品id总数较大,即权重矩阵中V较大,这种情况下存储权重矩阵及其对应的训练参数需要大量的内存。深度学习常用的计算设备通常有CPU、GPU、FPGA以及ASIC(专用集成电路)等,可以将GPU、FPGA以及ASIC统称为数据加速处理设备,数据加速处理设备往往具有更快的计算速度和更高的内存带宽,但是其内存容量往往存在内存有限、单价高昂、不易扩展等问题,而CPU设备运算速度相对较慢和内存带宽相对低,但其内存容量较大,价格相对低廉且容易扩展。如果将词嵌入的权重矩阵部署在数据加速处理设备上,其词表规模将受到内存容量的限制,而如果将其部署在CPU设备上,会导致训练或者推理速度变慢。在市场上,一个内存为8G的数据加速处理设备的价格是一个内存为4G的数据加速处理设备的价格的8倍。如果一味地增加数据加速处理设备的内存容量来满足词表规模,以便提高计算速度,将为企业带来高企的成本。
因此,在现有硬件构成的异构框架下,如何在保持硬件成本不变甚至降低的情况下,实现在配置更高硬件成本或更高内存数据加速处理设备的情况下的计算处理速度的同等速度,成为目前大数据处理企业和深度学习企业所急需解决的问题。
发明内容
针对上述现有问题,申请人注意到,大部分嵌入的输入符合长尾分布。长尾分布在词嵌入领域而言,举例来说,通常而言指的是,常规的词嵌入仅仅占据整个词嵌入的20%或更少,但是其占据实际输入的80%或更多,而生僻的词嵌入占据整个词嵌入的80%更多,但是其占据实际输入的20%或更少。为此,本发明的目的是解决至少上述问题之一,提供了一种数据对象的分频处理系统,包括:数据对象表生成单元,统计数据对象的出现频率,并按照频率高低顺序对每个数据对象进行排序标记,形成数据对象表;数据张量生成单元,将原始数据按照数据对象表转换成适于执行嵌入操作的嵌入输入张量;以及数据对象分配单元,基于数据加速处理设备的预定内存容量,将所生成的嵌入输入张量划分为高频数据对象表和低频数据对象表,并基于嵌入输入张量中归属于高频数据对象表的数据对象形成高频输入张量和基于高频输入张量中数据对象在嵌入输入张量中位置索引形成高频输入索引张量,以及基于嵌入输入张量中归属于低频数据对象表的数据对象形成低频输入张量和基于低频输入张量中元素在嵌入输入中位置索引形成低频输入索引张量,以便将高频输入张量输入到加速处理设备以便其嵌入单元进行嵌入处理从而获得高频输出以及将低频输入张量输入到数据常规处理设备以便其嵌入单元进行嵌入处理从而获得低频输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京一流科技有限公司,未经北京一流科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010724568.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:柔性多组份成型系统及其组建方法
- 下一篇:桥涵工程加强减震支撑结构体系
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置