[发明专利]一种基于提示自监督学习网络安全溯源语义识别方法有效
申请号: | 202210184902.X | 申请日: | 2022-02-28 |
公开(公告)号: | CN114254655B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 胡牧;孙捷;车洵;梁小川 | 申请(专利权)人: | 南京众智维信息科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35;G06N3/04;G06N3/08;H04L9/40 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
地址: | 211300 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 提示 监督 学习 网络安全 溯源 语义 识别 方法 | ||
1.一种基于提示自监督学习网络安全溯源语义识别方法,其特征在于,包括以下步骤:
构建网络安全专业语料库;
多维度丰富,重建对话中捕获攻击源的数据集;
用变压器编码部分识别语义特征,并向量化表示;
用变压器解码选择关键语义;
与真实标签训练交叉熵损失,并训练模型参数;
多次迭代优化模型输出对应标签,识别对应IP或域名。
2.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,构建网络安全专业语料库,包括以下步骤:
给定一段网络安全作战室聊天记录,把该专业领域下的所有相关文本的信息作为语料库,查取该领域下作战室以往用户发言聊天的历史记录,并人工标注相应攻击源标签,并映射对应操作集进行溯源处理,形成网络安全作战室聊天记录语料库。
3.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,多维度丰富,重建对话中捕获攻击源的数据集包括以下步骤:
对网络安全作战室聊天记录语料库进行多维度丰富,包括对攻击源信息不同形式的表现来丰富训练数据集,重建对话中捕获关键攻击源的文本。
4.根据权利要求3所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于:所述攻击源信息包括对话中出现的日志信息,安全设备报警信息,服务器资源异常信息,邮件钓鱼信息。
5.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,用变压器编码部分识别语义特征,并向量化表示包括以下步骤:
通过词向量矩阵把输入文本转换成词向量,间隔段向量和位置向量,三者线性融合表示经过基于双向变压器编码部分输入层输出的结果。
6.根据权利要求5所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,对于输入文本
对处理过的文本经过词向量层由文字符号变成实值标志的词向量,在首标记[CLS]、在尾标记[SEP],并且产生对句子进行区别的间隔段向量和每个词绝对位置的位置向量,其中词向量、间隔段向量、位置向量的向量维度均为
其中表示词向量,
7.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,用变压器解码选择关键语义,包括以下步骤:把经过基于双向变压器编码部分输入层输出的结果作为采用自编码预训练任务掩码语言模型编码部分的输入,并结合提示学习的方式结合全局上下文信息,预训练用掩码语言模型还原掩码的部分,学习敏感的文本表征。
8.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,与真实标签训练交叉熵损失,并训练模型参数包括以下步骤:
将从学习到的文本表征作为全连接层的输入,与真实标签训练交叉熵损失。
9.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,多次迭代优化模型输出对应标签,识别对应IP或域名包括以下步骤:将上一步骤的输出结果经过softmax层语义提取的最大概率输出对应的攻击源标签映射到操作集对应标签调度攻击者真实IP或域名。
10.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,识别对应IP或域名后,还包括以下步骤:
利用精确IP定位进行目标的位置定位;
收集互联网侧的用户ID;
输出攻击者画像与攻击路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京众智维信息科技有限公司,未经南京众智维信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210184902.X/1.html,转载请声明来源钻瓜专利网。