[发明专利]一种数据量的异常检测方法、装置、存储介质和设备有效
申请号: | 202011478233.4 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112635031B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 许朝 | 申请(专利权)人: | 北京懿医云科技有限公司 |
主分类号: | G16H40/20 | 分类号: | G16H40/20;G16H50/70;G06F18/2433 |
代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 张立新 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据量 异常 检测 方法 装置 存储 介质 设备 | ||
本发明公开一种数据量的异常检测方法,针对一个业务类型,采集N个批次的样本数据,每个批次的时长为T,每个批次的样本数据包括一个基础表的数据量和所有非基础表的数据量;N为正整数,T大于零;针对任意一个非基础表,根据该非基础表的数据量和基础表的数据量,统计该非基础表对应于每个批次的系数;根据该非基础表对应的N个批次的系数,统计该非基础表对应的最大系数和最小系数;根据最大系数和最小系数,计算该非基础表在第N+1个批次对应的预测最大数据量和预测最小数据量;根据预测最大数据量和预测最小数据量,检测该非基础表在第N+1个批次的数据量是否异常。
技术领域
本发明涉及数据处理技术,尤其涉及一种数据量的异常检测方法、装置、存储介质和设备。
背景技术
医疗数据治理领域,通过在医院部署客户端(简称为医院院端)收集数据,医院院端上传数据至系统,在系统中对这些数据进行管理。基于此,要求对医院院端上传的数据量进行监控并进行合理性评估,以确保医疗数据不缺失、不重复的稳定传输。
传统的医疗数据质控方式主要为人工经验质控、院端厂商提供预测指标、完全借助人工智能三种方式。但是,人工经验质控的方式存在质控成本高、标准模糊且不能量化、质控精度低等问题,院端厂商提供预测指标存在质控精度低等问题,而完全借助人工智能的方式技术投入高、技术要求高。
因此,需要一种简单易维护,且成本低、质控精度高的数据质控方式。
发明内容
本发明提供一种数据量的异常检测方法和装置,以至少解决现有技术中存在的以上技术问题。
本发明一方面提供一种数据量的异常检测方法,该方法应用于一数据系统,该数据系统包括至少一个业务类型,每个业务类型有一个基础表和至少一个非基础表,该方法包括:
针对一个业务类型,采集N个批次的样本数据,每个批次的时长为T,每个批次的样本数据包括一个基础表的数据量和所有非基础表的数据量;所述N为正整数,所述T大于零;
针对任意一个非基础表,根据该非基础表的数据量和基础表的数据量,统计该非基础表对应于每个批次的系数;
根据该非基础表对应的N个批次的系数,统计该非基础表对应的最大系数和最小系数;
根据所述最大系数和最小系数,计算该非基础表在第N+1个批次对应的预测最大数据量和预测最小数据量;
根据所述预测最大数据量和预测最小数据量,检测该非基础表在第N+1个批次的数据量是否异常。
其中,所述基础表和非基础表中,每个表包含至少一条记录,所述数据量为表中包含的记录数;
所述基础表用于记录用户的基础数据,每条记录对应一个唯一的用户标识;在所述用户的基础数据产生后,所述非基础表用于记录该用户产生的关联数据。
其中,所述根据该非基础表的数据量和基础表的数据量,统计该非基础表对应于每个批次的系数,包括:
针对任意一个批次,该非基础表对应于该批次的系数为:该非基础表在该批次的数据量与基础表在该批次的数据量的比值。
其中,所述计算该非基础表在第N+1个批次对应的预测最大数据量和预测最小数据量,包括:
采集第N+1个批次的基础表的数据量;
将第N+1个批次的基础表的数据量减去第N个批次的基础表的数据量,得到用户增量;
该非基础表在第N+1个批次对应的预测最大数据量为:该非基础表在第N个批次的数据量+用户增量*所述最大系数;
该非基础表在第N+1个批次对应的预测最小数据量为:该非基础表在第N个批次的数据量+用户增量*所述最小系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京懿医云科技有限公司,未经北京懿医云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011478233.4/2.html,转载请声明来源钻瓜专利网。