[发明专利]一种基于深度学习的漏洞攻击检测方法和设备有效
申请号: | 202110834371.X | 申请日: | 2021-07-22 |
公开(公告)号: | CN113596007B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 沈伍强;崔磊;沈桂泉;裴求根;龙震岳;张金波;温柏坚 | 申请(专利权)人: | 广东电网有限责任公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L67/02;G06N3/0442;G06N3/048;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李淑静 |
地址: | 510600 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 漏洞 攻击 检测 方法 设备 | ||
本发明提出了一种基于深度学习的漏洞攻击检测方法和设备。所述方法包括:对获取的Web数据进行预处理,将URL字段以字符形式表示;对预处理后的URL进行分词,并转换成统一的表示形式,得到URL语句的集合;将URL语句的集合中的每个词转化为向量,得到表示URL中有效语义信息和其他潜在属性信息的词向量矩阵;词向量矩阵输入预先构建的深度学习模型DMA‑BiLSTM中,对URL特征进行分类。本发明通过分析URL中隐藏的攻击,将攻击检测任务转换为分类任务,通过深度学习模型有效进行检测,取得了较好的效果。
技术领域
本发明涉及一种基于深度学习的漏洞攻击检测方法和设备,适用于Web应用攻击检测领域。
背景技术
随着信息通信技术的不断发展,电力信息系统应用环境发生了巨大变化,许多业务场景中,一些最危险的Web攻击(例如跨站点脚本和SQL注入)利用Web应用程序中的漏洞,这些漏洞可能在未经适当验证或过滤的情况下接收和处理不确定来源的数据,从而允许注入和执行动态或特定域的语言代码。尽管在过去的多年研究中提出了许多应对的策略,但是这些攻击一直是各种安全公告提供者的榜首。
Web应用攻击检测旨在通过各种方法检测用户向服务器发送的请求是否为攻击请求。随着Web应用数量的增加,数据量的复杂化,Web应用攻击检测的准确率以及稳定性变得尤为重要。针对Web应用攻击,通常采集的网页数据包括URL和网页内容中的源码。URL网址给的数据包含四部分:数据编号、网页标识、URL编码、URL网址。网页内容的数据则是网页的内容源代码数据。传统的词法特征包括URL字符串统计特征和结构特征,另一种为从URL中提取单词,即词袋模型。如果直接使用词袋模型,会丢失单词在URL中出现的顺序信息。Sahoo等人在“Sahoo D,Liu C,Hoi S C H.Malicious URL Detection using MachineLearning:A Survey[J].2017.14-16.”中提取URL文本特征用于攻击检测,首先将原始的URL转化为特征向量X。使用URL的分隔符将URL分割为单词,训练集中的所有URL分词后的单词构成字典,字典中的每个单词代表一个维度的特征。Kar等在“Kar D,Panigrahi S,Sundararajan S.SQLiDDS:SQL injection detection using query transformation anddocument similarity[C]//International Conference on Distributed Computing andInternet Technology.Springer,Cham,2015:377-390.”中首先定义了一个包含web攻击中常用的关键词的集合,然后将这些关键词和特殊符号替换成自定义的符号,将所有URL统一表示,利用聚类算法进行分类。然而,以上的研究中,一方面特征提取依靠专家进行特征定义,专家知识库直接决定了相关特征定义和选取规则的好坏;另一方面无法对于URL中的有效信息进行完整的保留。Web应用数据相对于图像、音频等数据更加复杂,直接使用已有深度学习模型无法取得较好的检测效果。特别是现有模型在面对具有时序类型的信息检测的有效性和稳定性方面难以满足电网信息系统的高要求。
发明内容
发明目的:针对现有技术的不足,本发明提出一种基于深度学习的漏洞攻击检测方法,对URL语义语法特征提取,进而从深度学习模型出发并对其进行改善,使得其更好的适用Web应用攻击检测领域。
本发明的另一目的是提供一种基于深度学习的漏洞攻击检测设备。
技术方案:根据本发明的第一方面,提供一种基于深度学习的漏洞攻击检测方法,包括以下步骤:
对获取的Web数据进行预处理,将URL字段以字符形式表示;
对预处理后的URL进行分词,并转换成统一的表示形式,得到URL语句的集合;
将URL语句的集合中的每个词转化为向量,得到表示URL中有效语义信息和其他潜在属性信息的词向量矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司,未经广东电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110834371.X/2.html,转载请声明来源钻瓜专利网。