[发明专利]一种大数据方差标准差的分布式或增量计算方法有效
申请号: | 201510083970.7 | 申请日: | 2015-02-15 |
公开(公告)号: | CN104636318B | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 王新根;黄滔;胡时豪 | 申请(专利权)人: | 浙江邦盛科技有限公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06Q40/00 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 邱启旺 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种大数据方差标准差的分布式或增量计算方法,将大集合的方差计算拆分为计算子集的方差、和、计数以及平均值,并通过子集计算得出的上述变量合并计算出大集合的最终方差及标准差;本发明能够处理超大数据集合(无法存储与内存中)的方差及标准差;针对超大数据集合,可以通过该方法将大集合拆分为若干子集,并发布到不同的机器上计算子集的上述变量,最后由其中一个机器完成所有子集的合并计算功能,从而能够达到分布式计算的目的,缩短超大数据集合的方差标准差计算时间;本发明更适用于海量的数据系统,在海量数据系统中,很多传统的方法无法完成大数据的方差标准差计算。 | ||
搜索关键词: | 一种 数据 方差 标准差 分布式 增量 计算方法 | ||
【主权项】:
一种大数据方差标准差的分布式或增量计算方法,其特征在于,包括如下步骤:(1)交易流水的采集:所述交易流水来自多种数据源,所述数据源为sql、nosql、文件系统;采用增量采集的方式将交易流水加载到内存中,每次采集m个交易流水数据,得到的交易流水集合为Xi={x1,x2,…,xm},其中i表示采集的序号数;(2)定义中间变量C、S、V、D,其中C为集合中数据个数,S为集合中数据之和,V为集合中数据的平均值,D为集合中数据的方差,则任意子集Xi的Ci为m,Si为Vi为Si/m,Di为(3)不断执行步骤1和2,得到n个交易流水子集X1、X2、…、Xi、…、Xj、…、Xn的中间结果;假设集合Xi的中间变量分别是Ci,Si,Vi,Di;集合Xj的中间变量分别是Cj,Sj,Vj,Dj,根据下述公式,将集合Xi和Xj进行合并得出合并后的集合Xij的方差Dij:Dij=CiDi+(Vi+Vij)[2Si+Ci(Vi-Vij)]+CjDj+(Vj-Vij)[2Sj+Cj(Vj-Vij)]Cij]]>其中,Vij表示集合Xi+Xj中数据的平均值,Cij表示集合Xi+Xj中数据的个数;根据Dij得到集合Xij的标准差(4)继续执行步骤3直到所有交易流水子集X1、X2、…、Xn全部完成计算,得到大数据集合X={X1、X2、…、Xn}的总方差D和其对应的标准差σ;(5)基于标准差σ进行交易波动的侦测:设定标准差阈值,超出该阈值则引入风控控制策略进行风险控制。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江邦盛科技有限公司,未经浙江邦盛科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510083970.7/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置