[发明专利]一种模型增量更新的方法及系统有效
申请号: | 202110175581.2 | 申请日: | 2021-02-07 |
公开(公告)号: | CN112860303B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 陈贞翔;张刚;赵川;刘安然;纪科;杨波 | 申请(专利权)人: | 济南大学 |
主分类号: | G06F8/658 | 分类号: | G06F8/658;G06F18/214;G06F18/241 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250022 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 增量 更新 方法 系统 | ||
本公开提出了一种模型增量更新的方法及系统,包括:使用归纳保形的思想筛选出测试数据集中携带新知识或复杂知识的数据,用于训练数据集和模型的迭代更新;使用时间窗口限制训练数据集的规模;使用数据循环选择的方法来抑制老旧冲突数据对训练模型的负面影响和训练数据集的无限增长。当携带复杂知识的数据占据新增数据一定比例或模型精确度降低到设定阈值,重新进行特征选择,数据集构建和模型训练。本公开实施例子提出了一种带有新知识和复杂知识的数据筛选方式,大幅度减少人工标记样本数量,减少训练数据规模,一定程度可以减少非平衡对模型性能的影响。
技术领域
本公开属于计算机技术领域,尤其涉及一种模型增量更新的方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
移动安全是安全领域的关键问题之一。平均使用的36种设备中就有一种处于高风险,AV-TEST最新报告,2019年,沉寂长达三年的恶意应用再次呈现出急速增长。Monet报告中,97%的移动恶意软件来源于Android平台,99%的移动恶意软件存在于没有足够的恶意软件筛选机制的第三方应用商店。
为了对抗上述威胁,一方面,基于机器学习技术的Android恶意软件检测被提出来,通过分析恶意软件静态和动态特征来进行恶意应用的检测。然而,攻击者可以经常使用技术更新他们的恶意代码,例如代码混淆方法,以重新包装恶意软件。因此基于学习和内容信息的软件预测器,在检测新的恶意应用或者零日软件时,会出现随着时间推移检测效果变差的问题即概念漂移。另一方面,通过分析恶意应用的恶意网络行为来对Android恶意应用检测是一种比较有前途的方法,通过学习恶意应用的网络行为,NIDS可以识别正常和恶意应用之间的网络痕迹,从而达到检测恶意应用的目的。不幸的是,NIDS同样存在这种随着时间推移,检测效果衰减的问题。
为了解决概念漂移带来的模型检测效果衰退问题,保持模型的检测效果,不可避免的,不时对模型进行升级或重新训练。
现有大部分工作重点关注增量模型方面的研究,在原有模型基础上,增加新数据进行增量训练,从而避免模型在大量数据训练时带来的巨大的时间消耗。先不论这种方式有效性,单一的从模型方面去解决概念漂移问题,带来的增益是有限的。解决概念漂移问题,模型不可避免的要进行重新训练问题,因此重训练样本规模,样本标记成本,模型历史知识保留情况,老旧数据对新数据分布的影响都是需要考虑的因素。只有综合各个方面,才能有效的解决概念漂移问题带来的模型检测效果的衰减问题。
发明内容
为克服上述现有技术的不足,本公开提供了一种模型增量更新的方法,来应对概念漂移带来的检测模型效果衰退的问题。
为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:
第一方面,公开了一种模型增量更新的方法,包括:
对采集的网络流量进行分流和特征提取,构成数据集,分为训练集及测试集;
针对上述训练集中样本通过时间窗口处理以抑制样本规模无限增长,通过样本循环筛选保留模型历史知识,减少老旧数据对现有模型的负面影响,获得更新模型。利用测试集对更新模型模型测试,直至更新模型模型预测精度下降到设定阈值。
进一步的技术方案,使用归纳保形技术筛选出携带新知识和复杂知识的样本,将此类样本添加到训练集参与模型的重训练,获得更新模型。使用更新模型进行测试,直至模型预测精度下降到设定阈值。
进一步的技术方案,获取网络流量;
对捕获的流量文件进行分流操作,分流按照五元组进行分流;
将分流操作后的文件进行特征提取,提取后的特征将会以需要的格式保存;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110175581.2/2.html,转载请声明来源钻瓜专利网。