[发明专利]一种数据量的异常检测方法、装置、存储介质和设备有效
申请号: | 202011478233.4 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112635031B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 许朝 | 申请(专利权)人: | 北京懿医云科技有限公司 |
主分类号: | G16H40/20 | 分类号: | G16H40/20;G16H50/70;G06F18/2433 |
代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 张立新 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据量 异常 检测 方法 装置 存储 介质 设备 | ||
1.一种医疗数据量的异常检测方法,其特征在于,该方法应用于一数据系统,该数据系统包括至少一个业务类型,每个业务类型有一个基础表和至少一个非基础表,所述基础表和非基础表中,每个表包含至少一条记录,数据量为表中包含的记录数;所述基础表用于记录用户的基础数据,每条记录对应一个唯一的用户标识;在所述用户的基础数据产生后,所述非基础表用于记录该用户产生的关联数据;该方法包括:
针对一个业务类型,采集N个批次的样本数据,每个批次的时长为T,每个批次的样本数据包括一个基础表的数据量和所有非基础表的数据量;所述N为正整数,所述T大于零;
针对任意一个非基础表,根据该非基础表的数据量和基础表的数据量,统计该非基础表对应于每个批次的系数,针对任意一个批次,该非基础表对应于该批次的系数为:该非基础表在该批次的数据量与基础表在该批次的数据量的比值;
根据该非基础表对应的N个批次的系数,统计该非基础表对应的最大系数和最小系数;
根据所述最大系数和最小系数,计算该非基础表在第N+1个批次对应的预测最大数据量和预测最小数据量;
根据所述预测最大数据量和预测最小数据量,检测该非基础表在第N+1个批次的数据量是否异常;
所述计算该非基础表在第N+1个批次对应的预测最大数据量和预测最小数据量,包括:
采集第N+1个批次的基础表的数据量;
将第N+1个批次的基础表的数据量减去第N个批次的基础表的数据量,得到用户增量;
该非基础表在第N+1个批次对应的预测最大数据量为:该非基础表在第N个批次的数据量+用户增量 所述最大系数;
该非基础表在第N+1个批次对应的预测最小数据量为:该非基础表在第N个批次的数据量+用户增量所述最小系数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述预测最大数据量和预测最小数据量,检测该非基础表在第N+1个批次的数据量是否异常,包括:
若该非基础表在第N+1个批次的数据量大于等于所述预测最小数据量且小于等于所述预测最大数据量,则确定所述该非基础表在第N+1个批次的数据量为正常,否则确定为异常。
3.根据权利要求2所述的方法,其特征在于,所述采集的N个批次的样本数据中不包含已被检测为异常的数据。
4.根据权利要求1所述的方法,其特征在于,若所述检测结果错误,该方法还包括,针对待检测批次,调整所述N的值,包括:
通过时间窗采集样本数据,其中,所述时间窗的起始长度为M个批次,所述时间窗的起始位置为所述待检测批次的前一个批次,所述时间窗的结束位置为待检测批次的前M个批次;每次采集样本数据时,所述时间窗的起始位置不变,所述时间窗的结束位置相比上一次采集时向前移动P个批次;采用时间窗采集样本数据的次数为预定次数;
计算通过时间窗每次采集的样本数据对应的误差百分比,将绝对值最小的误差百分比对应的样本数据的批次数量作为所述N的值。
5.根据权利要求4所述的方法,其特征在于,所述计算通过时间窗每次采集的样本数据对应的误差百分比,包括:
对于任意一次采集的样本数据,计算该待检测的非基础表在本次采集的样本数据中对应于每个批次的系数,统计该非基础表对应的平均系数;
计算该待检测的非基础表在待检测批次对应的预测平均数据量为:该待检测的非基础表在第上一个批次的数据量+用户增量所述平均系数;
计算待检测的非基础表对应于本次样本数据的误差百分比为:所述预测平均数据量与该非基础表在待检测批次的数据量的比值减1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京懿医云科技有限公司,未经北京懿医云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011478233.4/1.html,转载请声明来源钻瓜专利网。