[发明专利]一种模型增量更新的方法及系统有效

申请号：	202110175581.2	申请日：	2021-02-07
公开（公告）号：	CN112860303B	公开（公告）日：	2023-07-04
发明（设计）人：	陈贞翔;张刚;赵川;刘安然;纪科;杨波	申请（专利权）人：	济南大学
主分类号：	G06F8/658	分类号：	G06F8/658;G06F18/214;G06F18/241
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	李圣梅
地址：	250022 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种模型增量更新方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提出了一种模型增量更新的方法及系统，包括：使用归纳保形的思想筛选出测试数据集中携带新知识或复杂知识的数据，用于训练数据集和模型的迭代更新；使用时间窗口限制训练数据集的规模；使用数据循环选择的方法来抑制老旧冲突数据对训练模型的负面影响和训练数据集的无限增长。当携带复杂知识的数据占据新增数据一定比例或模型精确度降低到设定阈值，重新进行特征选择，数据集构建和模型训练。本公开实施例子提出了一种带有新知识和复杂知识的数据筛选方式，大幅度减少人工标记样本数量，减少训练数据规模，一定程度可以减少非平衡对模型性能的影响。

技术领域

本公开属于计算机技术领域，尤其涉及一种模型增量更新的方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

移动安全是安全领域的关键问题之一。平均使用的36种设备中就有一种处于高风险，AV-TEST最新报告，2019年，沉寂长达三年的恶意应用再次呈现出急速增长。Monet报告中，97％的移动恶意软件来源于Android平台，99％的移动恶意软件存在于没有足够的恶意软件筛选机制的第三方应用商店。

为了对抗上述威胁，一方面，基于机器学习技术的Android恶意软件检测被提出来，通过分析恶意软件静态和动态特征来进行恶意应用的检测。然而，攻击者可以经常使用技术更新他们的恶意代码，例如代码混淆方法，以重新包装恶意软件。因此基于学习和内容信息的软件预测器，在检测新的恶意应用或者零日软件时，会出现随着时间推移检测效果变差的问题即概念漂移。另一方面，通过分析恶意应用的恶意网络行为来对Android恶意应用检测是一种比较有前途的方法，通过学习恶意应用的网络行为，NIDS可以识别正常和恶意应用之间的网络痕迹，从而达到检测恶意应用的目的。不幸的是，NIDS同样存在这种随着时间推移，检测效果衰减的问题。

为了解决概念漂移带来的模型检测效果衰退问题，保持模型的检测效果，不可避免的，不时对模型进行升级或重新训练。

现有大部分工作重点关注增量模型方面的研究，在原有模型基础上，增加新数据进行增量训练，从而避免模型在大量数据训练时带来的巨大的时间消耗。先不论这种方式有效性，单一的从模型方面去解决概念漂移问题，带来的增益是有限的。解决概念漂移问题，模型不可避免的要进行重新训练问题，因此重训练样本规模，样本标记成本，模型历史知识保留情况，老旧数据对新数据分布的影响都是需要考虑的因素。只有综合各个方面，才能有效的解决概念漂移问题带来的模型检测效果的衰减问题。

发明内容

为克服上述现有技术的不足，本公开提供了一种模型增量更新的方法，来应对概念漂移带来的检测模型效果衰退的问题。

为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：

第一方面，公开了一种模型增量更新的方法，包括：

对采集的网络流量进行分流和特征提取，构成数据集，分为训练集及测试集；

针对上述训练集中样本通过时间窗口处理以抑制样本规模无限增长，通过样本循环筛选保留模型历史知识，减少老旧数据对现有模型的负面影响，获得更新模型。利用测试集对更新模型模型测试，直至更新模型模型预测精度下降到设定阈值。

进一步的技术方案，使用归纳保形技术筛选出携带新知识和复杂知识的样本，将此类样本添加到训练集参与模型的重训练，获得更新模型。使用更新模型进行测试，直至模型预测精度下降到设定阈值。

进一步的技术方案，获取网络流量；

对捕获的流量文件进行分流操作，分流按照五元组进行分流；

将分流操作后的文件进行特征提取，提取后的特征将会以需要的格式保存；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载