[发明专利]分布式多源异构数据场景下的基础统计指标获取方法有效
申请号: | 202010339568.1 | 申请日: | 2020-04-26 |
公开(公告)号: | CN111552720B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 杨静;赵欣;赵卓 | 申请(专利权)人: | 北京师范大学珠海分校 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/25 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 519085 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 多源异构 数据 场景 基础 统计 指标 获取 方法 | ||
1.一种分布式多源异构数据场景下的基础统计指标获取方法,其特征在于,包括以下步骤:
S1:在中心计算端和各个数据源端构建计算模块与通信模块;
S2:各个所述数据源端根据所述中心计算端的请求调用所述计算模块得到参数值,并将所述参数值通过所述通信模块返回所述中心计算端,从而得到基础统计指标;
步骤S1中,在所述中心计算端构建的计算模块包括:
求最大值模块:max=Max(maxk),
求最小值模块:min=Min(mink);
在各个所述数据源端构建的计算模块包括:
条件查询模块:Xk=Query(Query_C),
求最大参数值模块:maxk=Max(Xk),
求最小参数值模块:mink=Min(Xk),
求平均参数值模块:avgk=Avg(Xk),
求数据项个数模块:nk=Count(Xk),
求数据项总和模块:sumk=Sum(Xk)
求平方和模块:
其中,max为最大值,min为最小值,maxk为第k个数据源端中的最大参数值,mink为第k个数据源端中的最小参数值,为第k个数据源端中所有满足查询条件的数据项组成的向量,为第k个数据源端中满足查询条件的第i个数据项,nk为第k个数据源端中所有满足查询条件的数据项总个数,Query_C为求数据项查询条件,avgk为第k个数据源端中的平均参数值,sumk为第k个数据源端中的数据项总和参数值,Sk为第k个数据源端中所有数据项与平均值的差值的平方之和;
在步骤S2中,还包括求中位数M的方法,具体步骤为:
S2.5.1:所述中心计算端向各个所述数据源端发送求中位数的请求;
S2.5.2:所述中心计算端获取所有数据源端中数据的整体取值范围(min,max);
S2.5.3:所述中心计算端根据所述数据源端的个数N将所述整体取值范围划分为N个取值区间,并将N个取值区间发送到各个所述数据源端;
S2.5.4:各个所述数据源端接收到所述N个取值区间后遍历各自的所有数据项并记录落在每个取值区间中数据项的个数并将返回所述中心计算端;其中,表示第m个数据源端中落在第n个区间内的数据项的个数;
S2.5.5:所述中心计算端根据计算得到所述数据源端中数据总个数T;计算公式为:
S2.5.6:所述中心计算端计算得到所述数据源端中中位数所在的排位R;计算公式为:
S2.5.7:所述中心计算端依次计算所述数据源端中所有数据落在各区间内的个数:
S2.5.8:所述中心计算端依据R和各区间内数据项的个数得出中位数所在的区间q:[min+(q-1)d,max+qd];
S2.5.9:所述中心计算端把区间q内的所有数据看做一个组距数列并求中位数M;
步骤S2.5.2具体包括以下步骤:
S2.5.2.1:所述中心计算端向各个所述数据源端发送求最大值、求最小值的请求和Query_C;
S2.5.2.2:各个所述数据源端调用所述条件查询模块得到Xk;
S2.5.2.3:各个所述数据源端调用所述求最大参数值模块得到maxk,调用所述求最小参数值模块得到mink;并将maxk、mink返回所述中心计算端;
S2.5.2.4:所述中心计算端接收到maxk后调用所述求最大值模块,得到max;
所述中心计算端接收到mink后调用所述求最小值模块,得到min;从而获取所有数据源端中数据的整体取值范围(min,max);
步骤S2.5.3具体包括以下步骤:
S2.5.3.1:所述中心计算端计算各区间(除最后一组之外)的组距d,计算公式为:
S2.5.3.2:根据组距d把将所述整体取值范围划分为N个取值区间,得到各区间(除最后一组之外)分别为:
最后一组区间为:
[min+(N-1)d,max];
S2.5.3.3:将N个取值区间发送到各个所述数据源端;
步骤S2.5.9采用改进的插补法求中位数,具体包括以下步骤:
S2.5.9.1:所述中心计算端计算中位数所在区间的下限值L,计算公式为:
L=min+(q-1)d;
S2.5.9.2:所述中心计算端计算中位数所在区间以前的各区间的累积数据项个数Sq-1,计算公式为:
S2.5.9.3:所述中心计算端计算中位数所在区间的数据项个数fq,计算公式为:
S2.5.9.4:所述中心计算端计算中位数所在区间的后一个区间的数据项个数fq+1,计算公式为:
S2.5.9.5:所述中心计算端计算中位数所在区间的前一个区间的数据项个数fq-1,计算公式为:
S2.5.9.6:所述中心计算端计算得出中位数M,计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学珠海分校,未经北京师范大学珠海分校许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010339568.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置