[发明专利]面向网络数据流分类的在线稀疏学习方法及系统有效
申请号: | 202111356908.2 | 申请日: | 2021-11-16 |
公开(公告)号: | CN114070621B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 张莉;苏畅之;赵雷;王邦军 | 申请(专利权)人: | 苏州大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L41/16 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 吴竹慧 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 网络 数据流 分类 在线 稀疏 学习方法 系统 | ||
本发明涉及一种面向网络数据流分类的在线稀疏学习方法,包括以下步骤:S1、构建数据缓冲池,向数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数;S2、当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数;S3、当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,转至S2;否则,继续下一步;S4、采用核匹配追踪算法重新分配模型参数以保证模型参数的稀疏性;S5、采用更新后的模型对无标签流数据进行预测和分类。本发明的在线支持向量机在线学习效率高,模型更新效果好,能够产生稀疏模型。
技术领域
本发明涉及机器学习技术领域,尤其是指一种面向网络数据流分类的在线稀疏学习方法及系统。
背景技术
随着互联网技术的不断发展,网络安全问题日益突出。因特网上频繁发生的大规模网络入侵事件使很多政府部门、商业和教育机构都受到了不同程度的侵害,甚至造成了极大的经济损失,对网络安全甚至国家安全构成了严重的威胁。如何从大规模的TCP/IP消息流中识别出潜在攻击行为成为研究热点。
近年来,基于计算智能的网络入侵检测技术取得了长足的发展。机器学习算法比如支持向量机(SVM,Support Vector Machine)的分类模型可以在小样本的情况下取得很好的效果,但是对于网络流量数据此类大规模且时效性较强的流式数据,且分类效果则不佳。究其原因,现有的在线支持向量机在线学习效率低,模型更新效果差,并且难以产生稀疏模型。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中在线支持向量机在线学习效率低,模型更新效果好,并且难以产生稀疏模型的技术问题。
为解决上述技术问题,本发明提供了一种面向网络数据流分类的在线稀疏学习方法,包括以下步骤:
S1、构建数据缓冲池,向所述数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数;
S2、当数据缓冲池没有接收到新的带标签的流数据,则模型训练结束;当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,其中,所述目标函数基于初始模型函数构建;
S3、当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,转至S2;否则,继续下一步;
S4、采用核匹配追踪算法重新分配模型参数以保证模型参数的稀疏性,转至S2并继续对模型进行训练,获得更新后的模型;
S5、采用更新后的模型对无标签流数据进行预测和分类。
作为优选的,所述S2与S3之间还包括:
剔除所述数据缓冲池中噪声流数据。
作为优选的,所述剔除所述数据缓冲池中的噪声流数据,包括:
当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻,则判定该流数据为噪声流数据,剔除所述数据缓冲池中的噪声流数据。
作为优选的,所述S1包括:
S11、构建数据缓冲池,清空所述数据缓冲池,用l表示所述数据缓冲池的容量大小;
S12、向所述数据缓冲池中输入预设数量的带标签数据流序列,令当前到达模型的流数据形式为其中,yt为流数据xt的标签,d为流数据的特征数量;
S13、在数据缓冲池中累积了k(k≤l)个流数据后,令模型函数的形式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111356908.2/2.html,转载请声明来源钻瓜专利网。