[发明专利]基于图卷积神经网络的webshell检测方法及装置有效
申请号: | 202110282017.0 | 申请日: | 2021-03-16 |
公开(公告)号: | CN113194064B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 汪秋云;贺捷;姚叶鹏;姜政伟;刘宝旭;卢志刚 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06N3/04;H04L67/02 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余长江 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图卷 神经网络 webshell 检测 方法 装置 | ||
本发明公开了一种基于图卷积神经网络的webshell检测方法及装置,包括:解析流量数据包;根据流量间的跳转关系构建流量关联图,并依据流量关联图,得到该流量数据包的邻接矩阵;获取流量关联图中每一节点的特征向量;将邻接矩阵与特征向量输入双层GCN模型,得到webshell检测结果。本发明在特征提取阶段除了对常规的流量特征进行提取外,还根据流量间的跳转关系,建立图模型,提取流量间的关联特征,并引入了深度学习领域的图卷积技术,从而提高了webshell检测准确率。
技术领域
本发明涉及网络空间安全领域,具体涉及一种基于图卷积神经网络的webshell检测方法及装置。
技术背景
Webshell本质上是一个采用PHP、JSP或ASP等编写的脚本文件,常被攻击者用作操作网站服务器的后门工具。攻击者在从网站入侵进入到内网渗透时,一般通过上传webshell获得Web服务器的权限。攻击者利用漏洞将webshell植入web服务器,通过webshell在服务器上执行系统命令、文件读写、数据库读取与写入、内网主机探测、流量监控等操作,为后续信息窃取、商业勒索、组建僵尸网络等活动提供便利。
目前常用的用于连接webshell的网站后门管理软件有蚁剑、冰蝎和哥斯拉等。
大部分公司都在网关接口处部署WAF、IDS,能够抵御外部攻击,但是内部的防护却很薄弱,攻击者一旦进入了内部网络之后,就能够发起各种攻击,如果能够及时发现攻击者的内网入侵行为就能够有效地止损。攻击者从网站入侵转变为内网入侵的关键点就是Webshell,所以检测内网入侵行为的关键点就是Webshell的检测。攻击者在利用webshell的过程中自然会产生相应的流量通信数据,留下webshell的流量痕迹,因此可通过检测网站流量发现webshell。
传统的检测方法是利用统计学手段以及静态特征匹配,但是检测性能一般,容易产生误报,并且不能识别未知的webshell,无法应对变形多样的webshell样本;现有的基于机器学习模型的webshell检测方式,主要依赖训练样本及特征工程的质量,若特征维度过高会导致检测速度下降,误报率升高,并且在训练样本不足的情况下检测效果不佳,此外也无法利用通信流量之间存在的关联关系进行分析检测。
为更好的说明本发明,先说明本发明用到的相关术语的定义:
1、图卷积的实现公式:
其中,H(k)为输入,A为邻接矩阵,为加了自环的邻接矩阵,D为度矩阵,W(k)为第k层的权重参数矩阵,函数σ为非线性激活函数,如ReLu或sigmoid等。
2、TF-IDF(Term Frequency/Inverse Document Frequency,词频-逆文本频率)是一种用于数据挖掘的常用加权技术,TF是指词频,IDF是逆文本频率,计算公式如下:
其中,Nω是某一文本中词条ω出现的次数,N是该文本总的词条数。
其中,Y是语料库的文档总数,Yω是包含词条ω的文档数。
TF-IDFω=TFω*IDFω
TF-IDF即为TF和IDF的乘积。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110282017.0/2.html,转载请声明来源钻瓜专利网。