[发明专利]一种基于大数据的预检预修可视化系统有效
申请号: | 201811322934.1 | 申请日: | 2018-11-08 |
公开(公告)号: | CN109460393B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 郭淑琴;贾翼;任宏亮 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/13;G06F16/28;G06F16/215 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 预检 可视化 系统 | ||
1.一种基于大数据的预检预修可视化系统,其特征在于:所述系统包括智能数据采集模块、数据清洗预警模块、数据清洗检修模块、高危数据告警模块、数据快速存储模块和GIS数据动态加载模块;
所述智能数据采集模块,用于采用数据缓存服务器加数据缓存队列的方式对不同数据源进行分类,标记,存储,管理数据的元信息;将采集到的消息送到数据缓存服务器中,根据分布式文件系统中BLOCK的大小设置一个数据文件的临界值T,缓存服务器用于判断此文件的大小,对小于T的数据文件添加数据标识,即KEY,如数据文件的大小大于给定的T时,在数据处理完成后直接发送到分布式文件系统;根据标记分存到对应的数据队列中,直到触发归并阈值TH2;
所述数据清洗预警模块,用于解析数据源,依托算法识别非正常的流量及数据并归纳出相应的过滤规则加以滤除及下游使用;
所述数据清洗检修模块,用于利用数据清洗检修模块运用数字字典进行数据缺项修正,无效数据剔除;
所述高危数据告警模块,用于通过建立黑名单的方式运用PLRU算法动态加载更新黑名单数据,通过建立白名单的方式改善PLRU算法的失误率;
所述高危数据告警模块中,采用PLRU算法,步骤如下:
1.4.1由一组hash函数W={W1,W2,......Wn}组成,哈希函数的输出域为X,对于数据源为Q={q1,q2,......qn}中的每一个qi,在W的n个独立的hash函数映射下得到n个[1,M]之间的数;
1.4.2如果a是输入对象,那么在进行PLRU算法的时候,则会映射n个数,否则a判定为新对象,在一段检测时间内,数据流大小服从参数为1,畸变参数为α的帕累托分布;
1.4.3假设远程服务器集群在测控时间内数据包为K,则PLRU平均每隔J个数据包建立一个新数据标识,并淘汰黑名单底部的某个数据;
1.4.4假定某大流E大小正好等于阈值TH,则在连续J个数据文件中没有出现大数据文件E的概率服从超几何分布:当KJ时,E被移除的概率为:
其中
1.4.5根据步骤1.4.3和步骤1.4.4更新黑名单数据库;
1.4.6由于PLRU算法会有误报,对已经发现的误报样本通过建立白名单来防止误报;
所述数据快速存储模块,用于将数据处理模块清洗后的标识数据采用一致性hash算法进行存储;
所述GIS数据可视化模块,用于将清洗过的合法安全的数据进行动态展示,该模块封装了开源库ECharts,根据数据类型的不同选择适合本业务的模块,并将高危数据信息,检修数据信息展现在前端页面,从前端进行综合信息的分析。
2.如权利要求1所述的一种基于大数据的预检预修可视化系统,其特征在于:所述智能数据采集模块中,包括以下步骤:
1.1.1利用数据快速存储模块的一致性hash算法将数据散列存储;
1.1.2元信息管理的方式:利用预清洗预警模块识别流量攻击、网络爬虫和流量作弊;并将缺失标识后的数据送入数据清洗检修模块,标记后的高危数据送入恶意数据告警模块;
1.1.3利用关系型数据库构建黑白名单数据库,并将1.1.2标记的元信息写入关系型数据库中。
3.如权利要求2所述的一种基于大数据的预检预修可视化系统,其特征在于:所述数据清洗预警模块中,利用步骤1.1.3黑白名单数据库决策数据流向;进行步骤1.1.2元数据的归并。
4.如权利要求1~3之一所述的一种基于大数据的预检预修可视化系统,其特征在于:所述数据清洗检修模块中,包括以下步骤:
1.3.1在清洗预警模块中,表现为空单元格或显示为NAN,N/A或None,对于可能包含有意义的缺失数据的分类列,创建一个新的分类,称作Misssing,然后像普通列一样处理;
1.3.2在步骤1.3.1中,如若需要典型值,则将预修的数据转化为有意义的数值,如取业务数据的中位数。
5.如权利要求1~3之一所述的一种基于大数据的预检预修可视化系统,其特征在于:所述数据快速存储模块中,包括以下步骤:
1.5.1引入关系型数据库用于存储小数据文件合并过程产生的元数据;
1.5.2通过在机器IP或主机名的后面添加编号或端口号来获取当前处理服务器的哈希值HS={hs1,hs2,……,hsn},并将HS集合映射为空间的闭环结构;
1.5.3将消息队列缓存服务器的窗口数据取出放入待合并的集合G={g1,……g2,gn},n表示待合并文件的数目,gi表示待合并的第i个数据文件,对满足智能数据采集模块的触发条件的数据文件进行1.5.4操作;
1.5.4将触发TH2的数据文件从滑动窗口Wn中取出,采用多线程对Wn进行归并操作,将合并后的数据上传到分布式存储系统,同时将归并操作产生的元信息存储到关系型数据库中;
1.5.5合并过程中产生的第i个数据文件的元信息Di写入关系型数据库,其中Di={f1,f2,……,fn},其中fi是元信息集合的数据特征;
1.5.6当客户端发送读取小数据文件消息队列的请求,访问关系型数据库,得到数据文件的元信息Di;
1.5.7根据Di中的特征字段访问分布式文件系统小文件数据所在的大数据文件;
1.5.8根据大数据文件中的特征字段解析出相应的小数据文件;
1.5.9给每一个数据文件添加字段标识F,记录数据文件的访问频率;
1.5.10采用了将高频数据文件缓存在硬盘热快,根据对数据文件的附加字段进行判断是否在文件缓存服务器的硬盘上,直接读取数据文件缓存服务器中读取该数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811322934.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置