[发明专利]分布式多源异构数据场景下的基础统计指标获取方法有效

专利信息
申请号: 202010339568.1 申请日: 2020-04-26
公开(公告)号: CN111552720B 公开(公告)日: 2023-05-02
发明(设计)人: 杨静;赵欣;赵卓 申请(专利权)人: 北京师范大学珠海分校
主分类号: G06F16/2458 分类号: G06F16/2458;G06F16/25
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 刘俊
地址: 519085 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分布式 多源异构 数据 场景 基础 统计 指标 获取 方法
【权利要求书】:

1.一种分布式多源异构数据场景下的基础统计指标获取方法,其特征在于,包括以下步骤:

S1:在中心计算端和各个数据源端构建计算模块与通信模块;

S2:各个所述数据源端根据所述中心计算端的请求调用所述计算模块得到参数值,并将所述参数值通过所述通信模块返回所述中心计算端,从而得到基础统计指标;

步骤S1中,在所述中心计算端构建的计算模块包括:

求最大值模块:max=Max(maxk),

求最小值模块:min=Min(mink);

在各个所述数据源端构建的计算模块包括:

条件查询模块:Xk=Query(Query_C),

求最大参数值模块:maxk=Max(Xk),

求最小参数值模块:mink=Min(Xk),

求平均参数值模块:avgk=Avg(Xk),

求数据项个数模块:nk=Count(Xk),

求数据项总和模块:sumk=Sum(Xk)

求平方和模块:

其中,max为最大值,min为最小值,maxk为第k个数据源端中的最大参数值,mink为第k个数据源端中的最小参数值,为第k个数据源端中所有满足查询条件的数据项组成的向量,为第k个数据源端中满足查询条件的第i个数据项,nk为第k个数据源端中所有满足查询条件的数据项总个数,Query_C为求数据项查询条件,avgk为第k个数据源端中的平均参数值,sumk为第k个数据源端中的数据项总和参数值,Sk为第k个数据源端中所有数据项与平均值的差值的平方之和;

在步骤S2中,还包括求中位数M的方法,具体步骤为:

S2.5.1:所述中心计算端向各个所述数据源端发送求中位数的请求;

S2.5.2:所述中心计算端获取所有数据源端中数据的整体取值范围(min,max);

S2.5.3:所述中心计算端根据所述数据源端的个数N将所述整体取值范围划分为N个取值区间,并将N个取值区间发送到各个所述数据源端;

S2.5.4:各个所述数据源端接收到所述N个取值区间后遍历各自的所有数据项并记录落在每个取值区间中数据项的个数并将返回所述中心计算端;其中,表示第m个数据源端中落在第n个区间内的数据项的个数;

S2.5.5:所述中心计算端根据计算得到所述数据源端中数据总个数T;计算公式为:

S2.5.6:所述中心计算端计算得到所述数据源端中中位数所在的排位R;计算公式为:

S2.5.7:所述中心计算端依次计算所述数据源端中所有数据落在各区间内的个数:

S2.5.8:所述中心计算端依据R和各区间内数据项的个数得出中位数所在的区间q:[min+(q-1)d,max+qd];

S2.5.9:所述中心计算端把区间q内的所有数据看做一个组距数列并求中位数M;

步骤S2.5.2具体包括以下步骤:

S2.5.2.1:所述中心计算端向各个所述数据源端发送求最大值、求最小值的请求和Query_C;

S2.5.2.2:各个所述数据源端调用所述条件查询模块得到Xk

S2.5.2.3:各个所述数据源端调用所述求最大参数值模块得到maxk,调用所述求最小参数值模块得到mink;并将maxk、mink返回所述中心计算端;

S2.5.2.4:所述中心计算端接收到maxk后调用所述求最大值模块,得到max;

所述中心计算端接收到mink后调用所述求最小值模块,得到min;从而获取所有数据源端中数据的整体取值范围(min,max);

步骤S2.5.3具体包括以下步骤:

S2.5.3.1:所述中心计算端计算各区间(除最后一组之外)的组距d,计算公式为:

S2.5.3.2:根据组距d把将所述整体取值范围划分为N个取值区间,得到各区间(除最后一组之外)分别为:

最后一组区间为:

[min+(N-1)d,max];

S2.5.3.3:将N个取值区间发送到各个所述数据源端;

步骤S2.5.9采用改进的插补法求中位数,具体包括以下步骤:

S2.5.9.1:所述中心计算端计算中位数所在区间的下限值L,计算公式为:

L=min+(q-1)d;

S2.5.9.2:所述中心计算端计算中位数所在区间以前的各区间的累积数据项个数Sq-1,计算公式为:

S2.5.9.3:所述中心计算端计算中位数所在区间的数据项个数fq,计算公式为:

S2.5.9.4:所述中心计算端计算中位数所在区间的后一个区间的数据项个数fq+1,计算公式为:

S2.5.9.5:所述中心计算端计算中位数所在区间的前一个区间的数据项个数fq-1,计算公式为:

S2.5.9.6:所述中心计算端计算得出中位数M,计算公式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学珠海分校,未经北京师范大学珠海分校许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010339568.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top