[发明专利]使用映射归约计算叉积在审
申请号: | 202080010925.8 | 申请日: | 2020-01-24 |
公开(公告)号: | CN113678116A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 阿司瓦斯·马诺哈兰;尼古劳斯·桑塔格 | 申请(专利权)人: | 罗布乐思公司 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/2455;G06F16/2458;G06F16/27;G06F9/50 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张伟峰;夏凯 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 映射 计算 | ||
接收到基于连接字段从数据集生成叉积的请求。连接字段指示每个叉积将从数据集的对应子集生成,其中,该子集与相同的键相关联。响应于接收到基于连接字段生成数据集的多个叉积的请求,对数据集执行映射归约作业集以生成叉积。执行映射归约作业集从数据集的对应子集生成键值对组。相应的键值对组的每个键值对包括相同的键。响应于执行映射归约作业集,接收识别每个键值对组的叉积的最终输出数据。
技术领域
本公开涉及数据处理系统领域,尤其涉及使用映射归约框架计算叉积。
背景技术
大规模数据处理包括从一个或多个数据集中的原始数据中提取感兴趣的数据并将原始数据处理成有用的数据产品。并行和分布式处理环境中的大规模数据处理通常包括在多个磁盘和处理设备之间分配数据和计算,以有效利用聚合存储空间和计算能力。
附图说明
从下面给出的详细描述和从本公开的各种实施例的附图,将更全面地理解本公开的各种实施例。
图1图示了根据本公开的实施例的示例系统架构。
图2是图示根据本公开的实施例的用于基于连接字段生成叉积的方法的流程图。
图3是图示根据本公开的实施例的用于对数据集执行映射归约作业集以生成叉积的方法的流程图。
图4A图示了根据本公开的实施例的用于基于连接字段从数据集生成叉积的映射归约作业集的第一作业的图。
图4B图示了根据本公开的实施例的用于基于连接字段从数据集生成叉积的映射归约作业集的第二作业的图。
图4C图示了根据本公开的实施例的用于基于连接字段从数据集生成叉积的映射归约作业集的第三作业的图。
图4D图示了根据本公开的实施例的用于基于连接字段从数据集生成叉积的映射归约作业集的第四作业的图。
图4E图示了根据本公开的实施例的用于基于连接字段从数据集生成叉积的映射归约作业集的第五作业的图。
图4F图示了根据本公开的实施例的从包括时间范围的数据集生成叉积的映射归约作业集的第一作业的映射阶段的图。
图5是图示根据本公开的实施例的示例性计算机系统的框图。
具体实施方式
以下描述阐述了许多具体细节,例如具体系统、组件和方法等的示例,以提供对本公开的若干实施例的良好理解。然而,对于本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下实践本公开的至少一些实施例。在其他情况下,没有详细描述或以简单的框图格式呈现众所周知的组件或方法,以避免不必要地模糊本公开。因此,所阐述的具体细节仅仅是示例性的。特定实施例可以与这些示例性细节不同并且仍然被认为在本公开的范围内。
本公开的方面涉及使用映射归约框架的叉积生成。现代数据中心通常包括数千台主机,这些主机集体操作,以为来自更多远程客户端的请求提供服务。在操作期间,这些数据中心的组件会产生大量机器生成的数据。通常,数据可以转换为有用的数据产品,转换后的数据可以用于下游过程,例如输入到经过训练的机器学习模型或用于执行特定操作,例如相似性分析和评分分析等。
一种这样的数据变换是叉积(也称为“笛卡尔积”)。叉积可以指从运算(例如叉积运算)导出的值的集合,该运算将数据集的每个值与同一数据集的每个其他值或另一个或多个数据集的每个值配对。例如,数据集A可能包括4个条目:{value 1,value 2,value 3,value4}。数据集A的叉积将数据集A的每个值与数据集A的每个剩余值配对。数据集A的叉积包括值集:{[value 1,value 2],[value 1,value 3],[value 1,value 4],[value 2,value 3],[value 2,value 4],[value 3,value 4]}。使用大型数据集创建叉积会消耗大量计算机资源,例如计算、存储器和存储资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗布乐思公司,未经罗布乐思公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080010925.8/2.html,转载请声明来源钻瓜专利网。