[发明专利]基于RoBERTa的网络日志安全检测方法及系统在审
申请号: | 202211178487.3 | 申请日: | 2022-09-26 |
公开(公告)号: | CN115587007A | 公开(公告)日: | 2023-01-10 |
发明(设计)人: | 宋厚营;张铭伦;尹雷;陈浩;臧磊;王瑞;刘景雯;陈境宇;李琦;赵厚凯 | 申请(专利权)人: | 国网江苏省电力有限公司连云港供电分公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 段宇轩 |
地址: | 222000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 roberta 网络日志 安全 检测 方法 系统 | ||
1.一种基于RoBERTa的网络日志安全检测方法,其特征在于,包括步骤:
获取所有网络设备的带标签网络日志数据集;
对带标签网络日志数据预处理;
构建RoBERTa模型并通过带标签网络日志数据集对其训练,所述RoBERTa模型采用双向Transformer网络结构作为编码器,采用Softmax分类器获取日志存在风险的概率;
通过dropout函数筛选最优模型;
将带标签网络日志数据输入至最优的RoBERTa模型获取该日志存在风险的概率。
2.根据权利要求1所述的网络日志安全检测方法,其特征在于,所述RoBERTa模型将输入的日志数据转化为768维的高维向量。
3.根据权利要求1所述的网络日志安全检测方法,其特征在于,所述RoBERTa模型的BiLSTM包括前向LSTM和后向LSTM。
4.根据权利要求1所述的网络日志安全检测方法,其特征在于,所述Transformer块包括多个子层,每个子层包括多头自注意力机制和全连接前馈网络,每两个子层之间增加了残差连接模块和归一化模块。
5.根据权利要求4所述的网络日志安全检测方法,其特征在于,所述多头自注意力机制对每个字符的Query向量、Key向量和Value向量执行多组线性转换,分别进行自注意力计算,然后将所有计算结果进行拼接。
6.根据权利要求1所述的网络日志安全检测方法,其特征在于,所述Query向量、Key向量和Value向量长度均为64。
7.根据权利要求1所述的网络日志安全检测方法,其特征在于,所述多头自注意力机制采用缩放因子进行修正。
8.根据权利要求1所述的网络日志安全检测方法,其特征在于,所述RoBERTa模型对输入的日志文本数据添加[CLS][SEP]字符,并经日志文本数据划分为单个字符,然后将单个字符存储为词汇表,每个字符对应一个唯一标识符。
9.根据权利要求1所述的网络日志安全检测方法,其特征在于,所述日志文本数据添加[CLS][SEP]字符具体为:每个日志文本数据的第1个向量是[CLS]标志,用于下游的网络日志分类任务,句尾向量是[SEP]标志,用作不同日志的分隔符,RoBERTa模型输入的日志文本数据仅使用一个句向量。
10.一种基于RoBERTa的网络日志安全检测系统,其特征在于,包括数据采集模块、日志分词模块、网络日志安全检测模块、训练模块和数据库,所述数据采集模块用于采集网络环境中的设备信息及其日志文件,并将采集数据保存到数据库;所述日志分词模块用于对数据预处理;所述网络日志安全检测模块基于RoBERTa模型,所述RoBERTa模型采用双向Transformer网络结构作为编码器,采用Softmax分类器获取日志存在风险的概率;所述训练模块用于训练更新网络日志安全检测模块,通过dropout函数筛选最优模型;所述数据库用于保存日志数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江苏省电力有限公司连云港供电分公司,未经国网江苏省电力有限公司连云港供电分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211178487.3/1.html,转载请声明来源钻瓜专利网。