[发明专利]经由基数估计的有效联结路径确定有效

专利信息
申请号: 201580070304.8 申请日: 2015-12-21
公开(公告)号: CN107251017B 公开(公告)日: 2020-09-25
发明(设计)人: 阿努拉格·温德拉斯·古普塔;蒂莫西·安德鲁·拉斯;斯里尼瓦桑·孙达尔·拉加万;桑托什·凯克 申请(专利权)人: 亚马逊技术有限公司
主分类号: G06F16/27 分类号: G06F16/27
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 倪斌
地址: 美国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 经由 基数 估计 有效 联结 路径 确定
【说明书】:

诸如超级重对数等概率计数结构可以在有关选择的一组列中的每一个的表格扫描期间形成。所述列可以基于初始相关性估计选择,所述初始相关性估计可能基于所述各自列的数据类型。列的交集或并集的估计的基数可以基于所述概率数据结构的交集形成。联结路径可以基于所述列的交集或并集的所述估计的基数确定。

相关申请的交叉引用

本申请要求于2014年12月22日提交的美国专利申请No.14/578,841的利益,所述美国专利申请的公开内容以引用的方式整体并入本文中。

背景技术

数据仓库和在线分析处理(“OLAP”)系统可能包括允许分析查询的自动生成的各种工具。在一些情况下,这些工具可能依赖于用户提供有关将分析的数据的结构的各种细节。然而,提供该信息可能是参与的过程。在其它情况下,工具可以使用明确定义的模式信息诸如主键和外键关系自动地生成分析查询。然而,即使未明确定义,在分析上有用的关系可能仍然存在。可能还存在分析工具的用户不知道的分析上有用的关系。

附图说明

当结合附图进行阅读时,以下详述可以更好地理解。出于说明的目的,附图中示出本公开的方面的各种示例,然而本发明并不限于公开的特定方法和手段。

图1是描绘用于通过使用概率计数结构以估计两个列内的字段重合从而识别联结关系的系统和过程的实施方案的框图。

图2是描绘基于使用基数估计计算的估计的字段重合对两个列之间的联结路径进行识别的框图。

图3描绘用于计算概率计数结构的交集和并集的过程。

图4描绘用于使用概率计数结构识别联结路径的过程的实施方案。

图5描绘用于识别多个列中的两个之间的联结路径的过程的实施方案。

图6是描绘可以实践本公开的方面的计算环境的实施方案的框图。

图7是描绘可以实践本公开的方面的计算系统的实施方案的框图。

具体实施方式

本公开的方面可以被采用以识别可以用于在事务数据上执行分析操作的联结关系。联结关系可以用于各种目的,诸如用于生成分析查询。在一些情况下,联结关系可以用于生成可用于执行分析的分层。

本公开的实施方案可以利用诸如超级重对数(hyperloglog)等概率数据结构来识别列之间的联结关系。实施方案可以为每一潜在相关的列生成概率数据结构,其中初始相关性估计可能基于诸如共同的数据类型等因素。实施方案可以基于两个或多个概率数据结构的交集或基于交集的并集估计列值之间的重合。然后可以将列值之间的重合用作用于识别列之间的联结关系的依据。

概率数据结构可能包括与诸如近似法或随机化等各种统计技术有关的那些结构,以估计集合的基数。数据集的基数可能指代集合内的截然不同的值的数量。概率数据结构的示例包括与超级重对数、重对数(loglog)以及布隆过滤器技术有关的那些。术语超级重对数、重对数、最小哈希以及布隆过滤器可以用于指代对应于所述技术的结构。

概率数据结构可能包括若干桶。每一桶可能对应于数据流的细分并且可能包含有关细分内的估计的基数的信息。所述数据流可以基于多种准则进行细分。在一些情况下,所述细分可能是基本上随机的,在这种情况下桶可能对应于数据集的基本上随机的部分。这例如当数据流使用某些哈希函数进行细分时可能是如此情况。在其它情况下,细分可能基于诸如键范围等非随机准则。

通常来说,可以通过扫描大的(且在一些情况下非常大的)数据集获得数据流。概率数据结构可以被用于以存储器使用高效的方式估计大数据集的基数。然而,基数估计的准确度可能取决于数据流中的细分的数量和概率数据结构中的对应桶的数量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亚马逊技术有限公司,未经亚马逊技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201580070304.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top