[发明专利]指标异常波动的检测方法、装置及设备在审
申请号: | 201810662139.0 | 申请日: | 2018-06-25 |
公开(公告)号: | CN108959493A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 王蓬金;赵坤;张冠男;邹润 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 维度 检测 装置及设备 分析模型 配置接口 数据检测 信息增益 变化率 信息熵 调用 | ||
本说明书提供一种指标异常波动的检测方法、装置及设备,本实施例提供有数据检测配置接口,通过该接口,可以供用户输入待检测维度和指标的变化率;针对待检测维度,可以调用分析模型计算待检测维度的信息熵、信息增益率或二八原则参数中的一个或多个参数,通过所计算的参数可以检测出各个维度对指标异常变动的影响程度。
技术领域
本说明书涉及数据分析技术领域,尤其涉及指标异常波动的检测方法、装置及设备。
背景技术
随着信息技术的发展,各行各业在运营的过程中每天都会产生大量的数据。针对这些数据,数据分析师常常会有很多关注的指标,例如新增用户数量、活跃用户数量等等。这些指标的波动情况,常常采用同比或环比等变化率来表征。通过这些指标的变化率,数据分析师可以查看指标是否发生异常波动,例如,若变化率较大,可能说明该指标出现了异常波动。
实际业务场景中,指标的异常波动可能由多种原因产生,以用户数量同比为例,影响用户数量的维度,可能包括职业、用户所在城市、年龄或性别等等,不同维度对于用户数量波动的影响程度可能不同。基于此,需要提供一种能够检测指标异常波动、确定异常波动原因的方案。
发明内容
为克服相关技术中存在的问题,本说明书提供了指标异常波动的检测方法、装置及设备。
根据本说明书实施例的第一方面,提供一种指标异常波动的检测方法,所述方法包括:
提供配置接口,通过所述配置接口获取数据检测配置信息,所述数据检测配置信息包括:待检测维度和指标的变化率;
加载待检测数据,将所述待检测维度和所述指标的变化率作为分析模型的输入,调用所述分析模型,其中,所述分析模型用于:利用所述待检测数据计算所述待检测维度的如下一种或多种参数:信息熵、信息增益率或二八原则参数,并基于计算得到的参数确定所述待检测维度对所述指标的变化率的影响程度;
输出所述检测结果。
可选的,所述变化率包括:同比或环比。
可选的,所述信息熵基于如下方式确定:所述信息熵中的随机事件分为两类:所述待检测维度的枚举值对应变化率是否大于所述指标的变化率;所述随机事件出现的概率基于如下方式确定:所述对应变化率大于所述指标的变化率的枚举值个数占待检测维度的枚举值总个数的比例。
可选的,所述信息熵通过如下方式计算得到:
其中,gm(D)表示维度m的信息熵,n等于2,pi表示所述比例,D表示所述整体变化率。
可选的,所述信息增益率基于所述信息熵与所述待检测维度的枚举值总个数的比值而确定。
可选的,所述二八原则参数基于目标个数Q占所述待检测维度的枚举值总个数的比例而确定;其中,所述目标个数Q表示:将所述待检测维度的枚举值按照对应的变化绝对值从高至低排序,前Q个枚举值对应的变化绝对值的和值超过所述指标的变化绝对值的设定比例,所述设定比例基于80%而确定。
可选的,所述影响程度与所述信息熵或信息增益率呈正相关,与所述二八原则参数呈负相关。
可选的,所述分析模型运行于Hive平台中。
根据本说明书实施例的第二方面,提供一种指标异常波动的检测装置,包括:
配置模块,用于:提供配置接口,通过所述配置接口获取数据检测配置信息,所述数据检测配置信息包括:待检测维度和指标的变化率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810662139.0/2.html,转载请声明来源钻瓜专利网。