[发明专利]一种大数据方差标准差的分布式或增量计算方法有效
申请号: | 201510083970.7 | 申请日: | 2015-02-15 |
公开(公告)号: | CN104636318B | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 王新根;黄滔;胡时豪 | 申请(专利权)人: | 浙江邦盛科技有限公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06Q40/00 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 邱启旺 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 方差 标准差 分布式 增量 计算方法 | ||
技术领域
本发明涉及在金融实时风控、实时征信、实时营销等大数据实时分析领域的超大数据集(内存无法保存或者处理速度过慢)方差标准差的计算方法。
背景技术
在金融领域或互联网领域中,实时风控、实时征信、实时营销等细分领域经常有需要根据交易额波动情况等来控制风险、判定客户的信用额度等应用场景,这些应用场景一般都需要涉及相关数据维度方差、标准差的计算问题。应对这些需求,传统的基于数据库sql的技术方案在应对小数据量时问题不是很大,一般可以通过过滤相关原始数据,然后进行基于内存的cpu计算即可获得方差标准差结果。当需要进行某业务编码、某支付渠道等大数据维度的波动计算问题时,上述方案由于机器内存的限制以及数据量过于庞大等问题会导致计算过于缓慢甚至不可用。
方差是各个数据分别与其和的平均数之差的平方的和的平均数,用字母D表示。在概率论和数理统计中,方差(Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着重要意义。其计算方法如下:
标准差(Standard Deviation),中文环境中又常称均方差,但不同于均方误差(mean squared error,均方误差是各数据偏离真实值的距离平方的平均数,也即误差平方和的平均数,计算公式形式上接近方差,它的开方叫均方根误差,均方根误差才和标准差形式上接近),标准差是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。其计算方法如下:
方差以及标准差在内存足够大的时候,或者数据量不大的情况下,其计算方法是非常简单的。然而在当数据集合特别大(内存无法同时存放)时,就得考虑如何将原始数据集进行拆分,分别计算不同子集的方差或者标准差,最后进行合并的处理流程,本发明就是这么一种处理方法。
发明内容
本发明的目的在于针对现有技术的不足,提供一种大数据方差标准差的分布式或增量计算方法。
本发明的目的是通过以下技术方案来实现的:一种大数据方差标准差的分布式或增量计算方法,包括如下步骤:
(1)交易流水的采集:所述交易流水来自多种数据源,所述数据源为sql、nosql、文件系统等;采用增量采集的方式将交易流水加载到内存中,每次采集m个交易流水数据,得到的交易流水集合为Xi={x1,x2,…,xm},其中i表示采集的序号数;
(2)定义中间变量C、S、V、D,其中C为集合中数据个数,S为集合中数据之和,V为集合中数据的平均值,D为集合中数据的方差,则任意子集Xi的Ci为m,Si为Vi为Si/m,Di为
(3)不断执行步骤1和2,得到n个交易流水子集X1、X2、…、Xi、…、Xj、…、Xn的中间结果;假设集合Xi的中间变量分别是Ci,Si,Vi,Di;集合Xj的中间变量分别是Cj,Sj,Vj,Dj,根据下述公式,将集合Xi和Xj进行合并得出合并后的集合Xij的方差Dij:
其中,Vij表示集合Xi+Xj中数据的平均值,Cij表示集合Xi+Xj中数据的个数;
根据Dij得到集合Xij的标准差
(4)继续执行步骤3直到所有交易流水子集X1、X2、…、Xn全部完成计算,得到大数据集合X={X1、X2、…、Xn}的总方差D和其对应的标准差σ;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江邦盛科技有限公司,未经浙江邦盛科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510083970.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置