[发明专利]一种数据即时离散化及汇总的实现方法在审
申请号: | 201510390742.4 | 申请日: | 2015-07-07 |
公开(公告)号: | CN105224590A | 公开(公告)日: | 2016-01-06 |
发明(设计)人: | 冯昱川 | 申请(专利权)人: | 北京挺软科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100193 北京市海淀区东北旺北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 即时 离散 汇总 实现 方法 | ||
技术领域
本发明属于计算机技术的大数据、商业智能领域,尤其涉及一种数据即时离散化及汇总的实现方法。
背景技术
在计算机技术的大数据、商业智能领域中,连续变化的数值型数据通常都是统计分析的目标,即当作指标来使用的。数值型数据很少用做观察角度,并非没有这样的需求,而是因为数值型数据的离散化及调整困难,即使是需求强烈,通常也只有一种固定的离散化形式,无法满足不同场景下个性化统计分析的需要,而且还存在存储分档标签占用空间的问题。
发明内容
本发明针对当前大数据、商业智能领域中,连续变化的数值型数据的离散化不足,提供了一种数据即时离散化及汇总的实现方法。通过定义数值型数据的离散化方式、设定分档数目、即时分档、即时汇总数据等步骤、方法实现了数值型数据的即时分档并当作维度参与统计分析的目的。
本发明一种数据即时离散化及汇总的实现方法,弥补了大数据、商业智能领域中连续变化的数值型数据的离散化功能不足,不需要在数据抽取、清洗、转换的过程中进行数据分档,也不需要存储分档标签,实现了按需即时分档,按给定数目分档,生成分档即刻进行数据汇总完成分档的利用,同时增加了分析维度,让分析更自由、更灵活。
发明步骤、方法的确定离散化方式是首先选择“等距”或“等比”两种数值型数据离散方式中的一种。其中的等距分档是离散化步长固定不变,类似测量尺子的刻度不变,但分档中的数据量可能不同;等比分档是离散化各个分档中的数据量相同,即每个分档的数据量占比相同,但分档的步长可能不同,类似测量尺子的刻度不同。
发明步骤、方法的设定分档数目是指定给定期望离散化后的分档数量,即最多生成多少个数据分片。设定的分档数越多则分档的步长越小、分档的占比越小,在分析的效果上是观察分析的刻度小,数据分片多,观察更细致。
发明步骤、方法的即时分档是指在设定了离散化方式、分档数目后,立刻根据实际数据生成分档实例,分档实例包括多个分档的标签及与之对应的上边界值、下边界值。其中等距分档还需要实际数据的极大值和极小值数据,分档时极小值自动向下圆整到整十、百、千,极大值自动向上圆整到整十、百、千,划分出要求数量的分档,输出全部分档的标签;等比分档需要扫描待分档数据项的全部数据,将数据排序,根据分档数量切分并生成分档的标签。即时分档还需要说明的是:
1、数据圆整时,实际数据的数值大小不同,圆整的结果不同。很小的数值圆整到十,很大的数值可能圆整到百、千甚至是万,但一个离散化是一个确定的圆整目标。
2、自动生成的分档,不论是等距分档,还是等比分档都是半闭半开区间。举例如等距分档“50-100”表示包含数据范围是大于等于50且小于100的,分档“100-150”表示包含数据范围是大于等于100且小于150的。如有实际数据数值刚好是100则归入“100-150”的数据分档范畴内,从而保证数据的正交分割。
发明步骤、方法的即时汇总是指根据数值型数据的分档标签将数据累加汇总,形成以数值型数据的离散化标签为观察角度的聚合数据集,实现数值型数据做为维度分析的目的。
本发明一种数据即时离散化及汇总的实现方法也存在局限性,即不论是等距即时分档还是等比即时分档都需要在生成分档时访问实际的数据,如果数据存储在磁盘设备上即时分档可能迟滞系统的响应。
附图说明
图1为本发明一种数据即时离散化及汇总的实现方法之步骤方法示意。
图2为本发明一种数据即时离散化及汇总的实现方法之等距分档过程图。
图3为本发明一种数据即时离散化及汇总的实现方法之等比分档过程图。
图4为本发明一种数据即时离散化及汇总的实现方法之实现截图。
具体实施方式
为使本发明一种数据即时离散化及汇总的实现方法之目的、技术方案和优点更加清楚,以下结合电信运营商通话时长这一连续变化的数值型实例来详细说明实现的方法和技术细节。借此对本发明如何应用技术手段解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。
确定离散化方式
在发明步骤、方法的确定离散化方式就是在界面上呈现一个离散方式的可选项,待选内容共两项,分别是“等距”和“等比”,其中“等距”为缺省选择;设置一个存储变量,记录缺省离散化方式。
设定分档数目
在发明步骤、方法的设定分档数目实施过程就是录入并记录一个数值用做分档,录入的数值需进行有效范围检查,小于5或大于100都没意义。另外分档数以限制选项几个比较有意义的数值更好。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京挺软科技有限公司,未经北京挺软科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510390742.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息获取方法和装置
- 下一篇:一种基于网络的处理高通量实验数据管理系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置