[发明专利]一种基于无监督学习的数据库异常访问检测方法在审
申请号: | 201911010410.3 | 申请日: | 2019-10-23 |
公开(公告)号: | CN110866030A | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 汪秋云;王旭仁;罗蒙;方舟;王栋 | 申请(专利权)人: | 中国科学院信息工程研究所;国网浙江省电力有限公司信息通信分公司;国网电子商务有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 数据库 异常 访问 检测 方法 | ||
本发明公开了一种基于无监督学习的数据库异常访问检测方法,其步骤包括:1)对于历史审计日志中的各查询记录,分别提取每一查询记录中的特征并根据所提取的特征生成对应用户的行为轮廓;2)对各用户的行为轮廓进行聚类,并将聚类的结果标记为对应用户的用户组别;3)利用标记了用户组别的行为轮廓进行训练,得到异常检测模块;4)对于用户提交到数据库的一查询语句,提取该查询语句中的特征;根据所提取的特征生成该用户的行为轮廓并将其输入到训练后的异常检测模块中进行检测,确定是否为异常访问。本发明极大地提高了异常访问的检测速度。
技术领域
本发明使用了无监督聚类的方法对用户角色进行标注,同时利用分类算法训练异常检测器。具体而言,就是在基础的数据库异常检测模型中加入了聚类模块,在异常检测器的训练阶段对用户行为轮廓进行聚类,并将聚类的结果作为用户组别加入到异常检测器的训练中。
背景技术
聚类是一种运用广泛的探索性数据分析技术,直观上讲,聚类是一项将对象进行有意义分组的任务,使相似的对象归为一类,不相似的对象归为不同类。由于对象间的距离(或相似性)有多种隐式的定义,给定一个数据集,可以有多种不同的聚类解决方案。但是,聚类分类任务在实际情况下是存在问题的:一个是对不同对象而言相似性不存在传递性,也就是说,虽然聚类共享具有等价关系甚至传递关系,但其相似性是不具传递性的,这就导致对一个对象序列而言,可能所有相邻元素之间都非常相似,但头元素与尾元素的相似度却相差甚远;另一个问题则是无监督学习所共有的问题,即聚类缺乏实际情况,也就是说,我们无法预测标签,因此我们没有明确的聚类评估过程。
聚类算法中应用最广泛的一种算法是k-means聚类。文献1(Han Jiawei,KamberM,Pei Jian,等.数据挖掘:概念与技术.范明,孟小峰,译.3版.北京:机械工业出版社,2012:293-294)认为从几何上看,k-means算法的主要思想是将一个数据集按照数据点的空间分布分为几个簇,使得簇内数据点的距离接近而簇与簇之间相聚较远。k-means聚类算法的现实意义是将数据按照其属性的相似度进行分组,但存在一定的局限性,在算法开始时对簇数目k和初始聚类中心点的选择将会影响最终的聚类效果。
决策树算法模型是一种非参数型的分类器,是分类模型中应用最广泛的算法之一。决策树算法模型的构建一般包括三个步骤:属性选择、决策树生成和剪枝。决策树算法的关键在于如何在生成树的过程中选择最优的划分属性作为子节点。根据属性选择标准的不同,决策树算法分为ID3、C4.5、CART等。ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征递归地构建决策树。C4.5算法与ID3算法很相似,对ID3算法做了改进,在生成决策树过程中采用信息增益比来选择特征。相比ID3和C4.5,CART(Classificationand Regression tree)应用要多一些,既可以用于分类也可以用于回归,CART分类时,使用基尼指数(Gini)来选择最好的数据分割的特征,Gini描述的是纯度,与信息熵的含义相似。
文献2(Tin Kam Ho.Random decision forests.1995)指出决策树算法计算速度快、准确率高,但在分类过程中容易出现过拟合现象。而早在1994年由Leo Breiman提出的Bootstrap Aggregating算法,可以提高统计分类器和回归器的稳定性和准确度,帮助模型避免过拟合。因此文献2结合了Bootstrap Aggregating算法和决策树算法生成一种新的分类算法:随机森林算法。
随机森林算法是一种集成式决策树分类器,由多个决策树组合而成。随机森林算法改进了决策树构建过程中的属性选择方式,由遍历所有属性特征取最优,改为随机选取k个属性计算其信息增益。其主要思想是从训练集中随机抽取n个样本,再从特征集中随机抽取k个属性构造决策树;重复多次得到的决策树集合就是随机森林模型。随机森林运用的随机思想能避免决策树可能出现的过拟合,提高了决策树的泛化能力;随机森林的结构可以并行实现,增强了决策树的可扩展性。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所;国网浙江省电力有限公司信息通信分公司;国网电子商务有限公司,未经中国科学院信息工程研究所;国网浙江省电力有限公司信息通信分公司;国网电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911010410.3/2.html,转载请声明来源钻瓜专利网。