[发明专利]一种基于正态分布的互联网大数据挖掘方法和系统在审

专利信息
申请号: 201510676355.7 申请日: 2015-10-15
公开(公告)号: CN105279257A 公开(公告)日: 2016-01-27
发明(设计)人: 杨林;郑源水 申请(专利权)人: 珠海世纪鼎利科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州嘉权专利商标事务所有限公司 44205 代理人: 俞梁清
地址: 519085 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 正态分布 互联网 数据 挖掘 方法 系统
【说明书】:

技术领域

发明涉及一种基于正态分布的互联网大数据挖掘方法和系统,属于通信领域。

背景技术

随着网络和IT技术的发展,大数据、移动互联网已经成为IT和通信行业的热词。大数据(bigdata),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。而移动互联网,就是将移动通信和互联网二者结合起来,成为一体。是指互联网的技术、平台、商业模式和应用与移动通信技术结合并实践的活动的总称。

特别对于运营商来说,随着移动互联网的发展,原有的质量评估,问题监控的目标和手段也在发生转变。

2/3G时代,运营商关注的是网络KPI或KQI指标,对数据的获取或采集通常采用,计数的方式。数据量比较小,传统的架构和方法就可以胜任。

而随着4G的普及,运营商开始关注,用户感知和业务的问题。首先,分析的精度和要求进一步提高,例如从网元分析的级别到达用户、SP、业务级别。其次,分析的数据源也从计数的方式变成通过信令、MR等更原始的能直接反应用户的数据。

在数据处理方面,对于之前的告警类,传统方式是依据专家的经验,设计出一个阈值,对超过阈值的网元或者用户进行输出,进行二次统计后,再通过专家分析一段时间内的数据,来区分问题是常态还是临时的。在此,阈值是几乎不变的,一旦需要改变,需要重新设置并计算,这样,整个的计算统计的周期可能花费几天或几周,无法满足数据的有效性。

从以上可以看出传统方案存在主要几个问题:

处理数据量较小,对于海量数据处理能力不足。

阈值和分析区间为经验值,依赖专家的能力,对一些异常问题很难预警。

阈值一旦确定较少改变,无法依据网络用户变化动态改变。

处理效率较低,无法满足实际需要。

发明内容

针对现有技术存在的上述问题,提出了本发明的技术方案。

基于本发明的一个方面,提供了一种基于正态分布的互联网大数据挖掘方法,包括以下步骤:

步骤S1,采集信令以获取用户XDR;

步骤S2,基于大数据,通过用户XDR,计算出某一SPIP的某一时段的当前业务指标数据,并截取同时段的对应所述SPIP的历史业务指标数据;

步骤S3,将所述SPIP的同时段的当前业务指标数据与历史业务指标数据进行组合得到一数据组,以按时段数对业务指标数据进行分组统计,并逐一对每一数据组的业务指标数据进行归一化为方差为1,均值为0的规整化数据;

步骤S4,基于所述SPIP的某一时段的当前和历史业务指标数据,按照标准正态分布的方式输出小于-3σ的数据。

优选地,步骤S1中,通过信令采集系统获取用户XDR,所述业务指标数据包括所述SPIP的给定业务的HTTP建立成功率和/或流量,所述信令采集系统包括运营商统一DPI系统和上网日志系统。

优选地,步骤S2中,所述时段的时长为1小时。

优选地,步骤S2中,所述历史业务指标数据包括同时段的对应的多天内的业务指标数据。

优选地,步骤S3中,按照进行规整,其中DHDi、分别表示所述SPIP的第i天的同时段的数据组的值,该值包括该同时段的HTTP建立成功率、数据组均值、数据组标准差。

优选地,规整后的数据中,所述SPIP的数据与其他任一SPIP的数据无关,不随其他SPIP的变化而变化。

优选地,在步骤S4中,使用3σ原则,从归一化的业务指标数据中找出存在网络隐患或异常的SPIP,其中,存在网络隐患或异常的SPIP的归一化指标数据位于小于-3σ的区间。

优选地,还包括步骤S5,对存在网络隐患或异常的SPIP,查找对应的SPIP及时段,并关联对应的用户,进行预警,或推送至相应的维护人员进行处理。

基于本发明的第二个方面,提供了一种基于正态分布的互联网大数据挖掘系统,包括以下模块:

数据获取模块,配置为采集信令以获取用户XDR;

指标计算模块,配置为基于大数据,通过用户XDR,计算出某一SPIP的某一时段的当前业务指标数据,并截取同时段的对应所述SPIP的历史业务指标数据;

数据规整模块,配置为将所述SPIP的同时段的当前业务指标数据与历史业务指标数据进行组合得到一数据组,以按时段数对业务指+标数据进行分组统计,并逐一对每一数据组的业务指标数据进行归一化为方差为1,均值为0的规整化数据;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海世纪鼎利科技股份有限公司,未经珠海世纪鼎利科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510676355.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top