[发明专利]基于自然语言处理的恶意流量检测方法、系统、终端有效
申请号: | 202110127620.1 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112968872B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 杨昊;何琴;文武;谢安琪 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06N20/20;G06F40/216;G06N3/0464;G06N3/08;G06F18/24 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 刘红阳 |
地址: | 610225 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自然语言 处理 恶意 流量 检测 方法 系统 终端 | ||
本发明属于恶意流量检测技术领域,公开了一种基于自然语言处理的恶意流量检测方法、系统、终端,利用tshark工具提取pcap包,得到加密流量数据集;对黑白样本数据分别打上黑白标签;去除重复数据,打乱样本数据索引;建立TF‑IDF模型,对加密流量数据集进行特征重构;建立机器学习算法模型,对数据集正负样本进行训练;建立深度学习模型;调节各模型参数,训练各模型;使用ROC曲线和AUC值评估机器学习各个模型,采用TF‑IDF和集成学习相结合的方法进行加密恶意流量的检测。本发明以文本分类方法表示加密流量字段,具有较强泛化性,在后期进行模型改进时也不必拘泥于加密流量数据的信息提取。
技术领域
本发明属于恶意流量检测技术领域,尤其涉及一种基于自然语言处理的恶意流量检测方法、系统、终端。
背景技术
近年来,加密通信的迅速增加改变了威胁模式,许多基于常规规则的传统方法已不再像以前那样有效。随着越来越多的企业数字化,大量的服务和应用都采用加密作为信息保护的主要方式。根据Netmarketshare的数据,2019年10月加密Web流量的比例已经超过了九成。然而受益于加密技术的并非只有企业,对手也可以利用这种技术来躲避侦测和保护它们的恶意活动。
目前,对于加密恶意流量数据的检测,可以使用多种机器学习或深度学习的方法进行建模、检测。但在建模之前,流量数据包的处理是一个至关重要的问题。流量数据包一般包含了IP、端口号、MAC地址、各种协议等多个字段。其中有些字段直接影响着后期模型训练效果,而有些字段对训练模型来说则是冗余信息。所以在实际项目中,往往需要聘用网络完全专业人士对恶意流量数据进行分析、处理。而在实际操作中,流量数据包的处理往往是项目的核心之一,一方面需要耗费成本聘请大量人力;另一方面是错误的数据处理直接影响模型的检测效果。
针对加密恶意流量的检测一直是网络安全领域关注的焦点,目前主流的攻击检测手段有以下方法:统计方法、模式匹配方法以及机器学习方法。统计方法利用数据流的元数据来进行检测,包括包长度和到达间隔时间等,其不需要对加密的恶意流量进行解密就能检测到TLS连接的恶意程序。但是基于统计学习的方法的检测精确度不高,不能保证大部分恶意流量的正确检测,且相比机器学习方法速度较慢。模式匹配方法、机器学习的方法同样不需要对流量进行解密,其对流量数据提取特征做特征工程后再选择算法建模训练、检测。模式匹配方法是网络流量分类中应用较久的另一组方法。但由于需要读取数据包内容,读取加密数据比较困难,因此面临一些障碍,需要克服处理多GB连接和支持大量签名的可伸缩性等问题。机器学习方法虽然不需要对加密流量解密且速度较快,但需要对流量数据进行分析、处理,耗费人力、时间。
通过上述分析,现有技术存在的问题及缺陷为:
(1)在实际项目中,对加密恶意流量数据的检测往往需要聘用网络完全专业人士对恶意流量数据进行分析、处理,需要耗费成本聘请大量人力,且错误的数据处理直接影响模型的检测效果。
(2)基于统计学习的方法的检测精确度不高,不能保证大部分恶意流量的正确检测,且相比机器学习方法速度较慢。
(3)模式匹配方法需要读取数据包内容,读取加密数据比较困难,因此面临一些障碍,需要克服处理多GB连接和支持大量签名的可伸缩性等问题。
(4)机器学习方法虽然不需要对加密流量解密且速度较快,但需要对流量数据进行分析、处理,耗费人力、时间。
解决以上问题及缺陷的意义为:
在检测过程中,不必再过多的关注数据本身信息,从而大力节省人力资源;检测结果精确度较高,适用于实际工程。
发明内容
针对现有技术存在的问题,本发明提供了一种基于自然语言处理的恶意流量检测方法、系统、终端。
本发明是这样实现的,一种基于自然语言处理的恶意流量检测方法,所述基于自然语言处理的恶意流量检测方法包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110127620.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:超声换能器
- 下一篇:高容量的金属离子电池有机电极材料及其制备方法和应用