[发明专利]一种频次类实时统计模型系统及方法有效
申请号: | 201710225408.2 | 申请日: | 2017-04-07 |
公开(公告)号: | CN107046489B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 崔宁;李超;王夷;鲁惊雷;文佳;王文博;张伟;汪刚;马建平 | 申请(专利权)人: | 上海熙菱信息技术有限公司 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/06 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 201203 上海市浦东新区中国(上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 频次 实时 统计 模型 系统 方法 | ||
本发明公开了一种频次类实时统计模型系统及方法,其中数据记录方法包括:在每一条数据记录入库时,确定当前数据记录的产生时间;分别对以所述当前数据记录的产生时间为基准的前一频次周期和后一频次周期内的数据记录数进行更新。本技术方案解决了现有技术中对用户访问和操作日志的统计方法会有延迟较大,且存在统计遗漏等问题。
技术领域
本发明涉及数据统计领域,尤其涉及一种频次类实时统计模型系统及方法。
背景技术
随着互联网技术的发展和更新,基于网络的应用越来越多。企事业单位内部信息化程度越来越高,很多关键信息都存放在信息系统中,企业内部发生的频繁访问有可能是内部员工在盗取数据;互联网应用和网站越来越多,其中出现的频繁访问有可能是正常的用户使用,也有可能是黑客攻击。
例如,根据某个业务系统中的访问日志记录,员工A在5分钟内进行了1000次访问操作,正常情况下,不可有人达到如此高的操作频率,出现这个情况有可能是此员工正在通过第三方的插件或程序对系统进行数据盗取。
又例如,根据某网站的用户访问日志记录,某IP在1分钟内进行了100次登录操作,正常情况下不可能有人进行这样的操作,出现这个情况有可能是黑客程序正在暴力破解用户密码。
传统的解决方案是使用定时任务,定期对用户访问和操作日志进行统计,统计一分钟或5分钟内的操作数量,超过阀值进行告警。但是这样的解决方案有不少弊端,具体如下:
1、延迟较大,当发现超阀值时,实际可能已经过去了一段时间。
2、如果访问和操作日志采集来自多个系统,数据来源延迟时,统计数量会存在遗漏的情况。
3、如果为减少定时任务延迟性,可能会将定时任务执行周期调短,但是不管如何调短,仍然会存在跨周期超阀值而统计盲点的情况,比如:执行周期1分钟进行1次统计,设定阀值为1分钟100次操作,用户在3:31:59进行了60次操作,在3:32:01进行了60次操作,根据统计来看,每一个分钟片段都没有超阀值,但实际上用户是在3秒内进行了120次操作,类似此种情况,传统的统计任务无法识别。如果设定周期为1秒钟1次,则会存在大量的无用查询,增加数据库压力。
发明内容
本发明解决的问题是现有的对用户访问和操作日志的统计方法会有延迟较大,且存在统计遗漏等问题。
为解决上述问题,本发明实施例提供了一种数据记录处理方法,包括如下步骤:
在每一条数据记录入库时,确定当前数据记录的产生时间;
分别对以所述当前数据记录的产生时间为基准的前一频次周期和后一频次周期内的数据记录数进行更新。
可选的,数据记录处理方法还包括如下步骤:
在查询超阈值的频次计数时,遍历各个以当前数据记录的产生时间为基准的前一频次周期和后一频次周期内的数据记录数;
筛选出大于所述阈值的数据记录数所在的频次周期及其对应的当前数据记录的产生时间,以确定频次计数超阈值的时间段。
可选的,所述当前数据记录的产生时间是当前数据记录的入库时间或者是早于当前数据记录的入库时间。
可选的,所述分别对以所述当前数据记录的产生时间为基准的前一频次周期和后一频次周期内的数据记录数进行更新包括:
将以所述当前数据记录的产生时间为基准的前一频次周期内的数据记录数加1;
将以所述当前数据记录的产生时间为基准的后一频次周期内的数据记录数加1。
可选的,各个以当前数据记录的产生时间为基准的频次周期的时长相等。
与现有技术相比,本发明技术方案具有以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海熙菱信息技术有限公司,未经上海熙菱信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710225408.2/2.html,转载请声明来源钻瓜专利网。