[发明专利]基于半监督学习的异常流量检测模型训练方法及装置有效
申请号: | 201911264853.5 | 申请日: | 2019-12-11 |
公开(公告)号: | CN110933102B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 吴斌 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06K9/62 |
代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 林锦辉;刘景峰 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 学习 异常 流量 检测 模型 训练 方法 装置 | ||
1.一种基于半监督学习的异常流量检测模型训练方法,包括:
获取异常流量检测模型的训练样本集,所述训练样本集包括有标记训练样本集和无标记训练样本集,所述有标记训练样本中的各个训练样本具有访问流量特征数据以及标记数据,所述无标记训练样本集中的各个训练样本具有访问流量特征数据;
使用当前训练样本集对当前异常流量检测模型进行半监督学习训练,直到满足训练结束条件,其中,在未满足训练结束条件时,对当前无标记训练样本集中的至少一个待标记训练样本标注标记以加入当前有标记训练样本集,以得到经过调整后的训练样本集,将该经过调整后的训练样本集作为当前训练样本集来进行下一模型训练过程,
所述训练结束条件包括:当前模型训练过程中针对当前无标记训练样本集的异常预测率相对于上一模型训练过程中针对所述当前无标记训练样本集的异常预测率的变化率不大于预定阈值,
在未满足训练结束条件时,对所述训练样本集中的训练样本进行聚类;根据所述聚类结果,从所述当前无标记训练样本集中确定所述至少一个待标记训练样本,
其中,根据所述聚类结果,从所述当前无标记训练样本集中确定所述至少一个待标记训练样本包括:
针对所述聚类结果中的各个聚类,确定该聚类中的有标记训练样本在总有标记训练样本中的有标记样本占比;
将有标记样本占比低于设定比例阈值的聚类,确定为所述至少一个目标聚类;以及
将所述至少一个目标聚类中的无标记训练样本,确定为所述至少一个待标记训练样本。
2.如权利要求1所述的异常流量检测模型训练方法,其中,根据所述聚类结果,从所述当前无标记训练样本集中确定所述至少一个待标记训练样本包括:
将所述当前无标记训练样本集中的所述聚类结果为离群点的训练样本,确定为所述至少一个待标记训练样本。
3.如权利要求1或2所述的异常流量检测模型训练方法,其中,在未满足训练结束条件时,采用主动学习方式来对所述当前无标记训练样本集中的至少一个训练样本标注标记以加入所述当前有标记训练样本集来进行下一模型训练过程。
4.一种基于半监督学习的异常流量检测模型训练装置,包括:
训练样本集获取单元,获取异常流量检测模型的训练样本集,所述训练样本集包括有标记训练样本集和无标记训练样本集,所述有标记训练样本中的各个训练样本具有访问流量特征数据以及标记数据,所述无标记训练样本集中的各个训练样本具有访问流量特征数据;
模型训练单元,使用当前训练样本集对当前异常流量检测模型进行半监督学习训练,直到满足训练结束条件,其中,在未满足训练结束条件时,对当前无标记训练样本集中的至少一个待标记训练样本标注标记以加入当前有标记训练样本集,以得到经过调整后的训练样本集,将该经过调整后的训练样本集作为当前训练样本集来进行下一模型训练过程,
所述训练结束条件包括:当前模型训练过程中针对当前无标记训练样本集的异常预测率相对于上一模型训练过程中针对所述当前无标记训练样本集的异常预测率的变化率不大于预定阈值,
所述模型训练单元包括样本标记模块,所述样本标记模块包括待标记样本确定子模块和样本标记子模块,
所述待标记样本确定子模块用于对所述训练样本集中的训练样本进行聚类,针对所述聚类结果中的各个聚类,确定该聚类中的有标记训练样本在总有标记训练样本中的有标记样本占比,将有标记样本占比低于设定比例阈值的聚类,确定为所述至少一个目标聚类,以及将所述至少一个目标聚类中的无标记训练样本,确定为所述至少一个待标记训练样本,
所述样本标记子模块用于对所确定出的至少一个待标记训练样本标注标记以加入所述当前有标记训练样本集。
5.如权利要求4所述的异常流量检测模型训练装置,其中,所述模型训练单元还包括:
模型预测模块,将当前训练样本集提供给当前异常流量检测模型来进行异常预测,以确定针对当前无标记训练样本集中的各个当前无标记训练样本的当前异常预测率;
变化率确定模块,确定所述各个当前无标记训练样本的当前异常预测率相对于上一模型训练过程中针对所述各个当前无标记训练样本的上一异常预测率的变化率;
其中,所述模型预测模块、所述变化率确定模块和所述样本标记模块循环操作,直到满足所述训练结束条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911264853.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:羽毛纱的制作方法
- 下一篇:一种可消除应力波动的超深井摩擦提升系统及使用方法