[发明专利]一种基于正态分布的互联网大数据挖掘方法和系统在审
申请号: | 201510676355.7 | 申请日: | 2015-10-15 |
公开(公告)号: | CN105279257A | 公开(公告)日: | 2016-01-27 |
发明(设计)人: | 杨林;郑源水 | 申请(专利权)人: | 珠海世纪鼎利科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 俞梁清 |
地址: | 519085 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 正态分布 互联网 数据 挖掘 方法 系统 | ||
技术领域
本发明涉及一种基于正态分布的互联网大数据挖掘方法和系统,属于通信领域。
背景技术
随着网络和IT技术的发展,大数据、移动互联网已经成为IT和通信行业的热词。大数据(bigdata),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。而移动互联网,就是将移动通信和互联网二者结合起来,成为一体。是指互联网的技术、平台、商业模式和应用与移动通信技术结合并实践的活动的总称。
特别对于运营商来说,随着移动互联网的发展,原有的质量评估,问题监控的目标和手段也在发生转变。
2/3G时代,运营商关注的是网络KPI或KQI指标,对数据的获取或采集通常采用,计数的方式。数据量比较小,传统的架构和方法就可以胜任。
而随着4G的普及,运营商开始关注,用户感知和业务的问题。首先,分析的精度和要求进一步提高,例如从网元分析的级别到达用户、SP、业务级别。其次,分析的数据源也从计数的方式变成通过信令、MR等更原始的能直接反应用户的数据。
在数据处理方面,对于之前的告警类,传统方式是依据专家的经验,设计出一个阈值,对超过阈值的网元或者用户进行输出,进行二次统计后,再通过专家分析一段时间内的数据,来区分问题是常态还是临时的。在此,阈值是几乎不变的,一旦需要改变,需要重新设置并计算,这样,整个的计算统计的周期可能花费几天或几周,无法满足数据的有效性。
从以上可以看出传统方案存在主要几个问题:
处理数据量较小,对于海量数据处理能力不足。
阈值和分析区间为经验值,依赖专家的能力,对一些异常问题很难预警。
阈值一旦确定较少改变,无法依据网络用户变化动态改变。
处理效率较低,无法满足实际需要。
发明内容
针对现有技术存在的上述问题,提出了本发明的技术方案。
基于本发明的一个方面,提供了一种基于正态分布的互联网大数据挖掘方法,包括以下步骤:
步骤S1,采集信令以获取用户XDR;
步骤S2,基于大数据,通过用户XDR,计算出某一SPIP的某一时段的当前业务指标数据,并截取同时段的对应所述SPIP的历史业务指标数据;
步骤S3,将所述SPIP的同时段的当前业务指标数据与历史业务指标数据进行组合得到一数据组,以按时段数对业务指标数据进行分组统计,并逐一对每一数据组的业务指标数据进行归一化为方差为1,均值为0的规整化数据;
步骤S4,基于所述SPIP的某一时段的当前和历史业务指标数据,按照标准正态分布的方式输出小于-3σ的数据。
优选地,步骤S1中,通过信令采集系统获取用户XDR,所述业务指标数据包括所述SPIP的给定业务的HTTP建立成功率和/或流量,所述信令采集系统包括运营商统一DPI系统和上网日志系统。
优选地,步骤S2中,所述时段的时长为1小时。
优选地,步骤S2中,所述历史业务指标数据包括同时段的对应的多天内的业务指标数据。
优选地,步骤S3中,按照进行规整,其中DHDi、分别表示所述SPIP的第i天的同时段的数据组的值,该值包括该同时段的HTTP建立成功率、数据组均值、数据组标准差。
优选地,规整后的数据中,所述SPIP的数据与其他任一SPIP的数据无关,不随其他SPIP的变化而变化。
优选地,在步骤S4中,使用3σ原则,从归一化的业务指标数据中找出存在网络隐患或异常的SPIP,其中,存在网络隐患或异常的SPIP的归一化指标数据位于小于-3σ的区间。
优选地,还包括步骤S5,对存在网络隐患或异常的SPIP,查找对应的SPIP及时段,并关联对应的用户,进行预警,或推送至相应的维护人员进行处理。
基于本发明的第二个方面,提供了一种基于正态分布的互联网大数据挖掘系统,包括以下模块:
数据获取模块,配置为采集信令以获取用户XDR;
指标计算模块,配置为基于大数据,通过用户XDR,计算出某一SPIP的某一时段的当前业务指标数据,并截取同时段的对应所述SPIP的历史业务指标数据;
数据规整模块,配置为将所述SPIP的同时段的当前业务指标数据与历史业务指标数据进行组合得到一数据组,以按时段数对业务指+标数据进行分组统计,并逐一对每一数据组的业务指标数据进行归一化为方差为1,均值为0的规整化数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海世纪鼎利科技股份有限公司,未经珠海世纪鼎利科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510676355.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置