[发明专利]训练样本生成方法、异常检测方法及装置有效
申请号: | 201811583931.3 | 申请日: | 2018-12-24 |
公开(公告)号: | CN109871954B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 高原;金欢;金洪波;周亚东 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘;李娟 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 样本 生成 方法 异常 检测 装置 | ||
1.一种训练样本生成方法,其特征在于,包括:
获取第二类已标记样本集和未标记样本集;
依次循环执行以下步骤,直到确定本次未获得新的IP地址或新的终端标识,获取初始标记后的第一类初始样本集:
从未标记样本集中获得本次在上一次新的IP地址集下对应的除上一次新的终端标识集之外的新的终端标识集;
从未标记样本集中获得本次在本次新的终端标识集下对应的除上一次新的IP地址集之外的新的IP地址集;其中,新的IP地址集的初始值为第二类已标记样本集对应的所有IP地址,新的终端标识集的初始值为空;
获得每次循环得到的各新的终端标识集和新的IP地址集;
分别针对所述未标记样本集中每个未标记样本,将IP地址和终端标识均不属于获得的各新的IP地址集和新的终端标识集的未标记样本初始标记为第一类初始样本;
从预分类的所述第一类初始样本集中采样出一组第一类初始样本;
根据该组第一类初始样本和当前的第二类可靠样本集中的各个第二类可靠样本,训练得到样本分类器;其中,第一类和第二类表示属性不同的两类样本;
当确定训练得到的样本分类器的分类效果符合预设条件时,将该组第一类初始样本添加到第一类可靠样本集中,以获得更新的第一类可靠样本集。
2.如权利要求1所述的方法,其特征在于,进一步包括:
执行所述从预分类的第一类初始样本集中采样出的一组第一类初始样本步骤之前,从所述第一类初始样本集中采样出n组第一类初始样本;以及
当所述n组第一类初始样本对应训练的所有样本分类器均确定完是否符合预设条件时,获得最终更新后的第一类可靠样本集。
3.如权利要求1所述的方法,其特征在于,进一步包括:
从预分类的第二类初始样本集中采样出一组第二类初始样本;
根据该组第二类初始样本和当前更新的第一类可靠样本集中的各个第一类可靠样本,训练得到样本分类器;
当确定训练得到的样本分类器的分类效果符合预设条件时,将该组第二类初始样本添加到第二类可靠样本集中,以获得更新的第二类可靠样本集。
4.如权利要求3所述的方法,其特征在于,进一步包括:
执行所述从预分类的第二类初始样本集中采样出的一组第二类初始样本步骤之前,从所述第二类初始样本集中采样出n组第二类初始样本;并,
当所述n组第二类初始样本对应训练的所有样本分类器均确定完是否符合预设条件时,获得最终更新后的第二类可靠样本集。
5.如权利要求3~4任一项所述的方法,其特征在于,所述第二类可靠样本集的初始值为第二类已标记样本集;
确定训练得到的样本分类器的分类效果符合预设条件包括:
若对所述第二类已标记样本集的分类结果均为第二类样本、和/或对所述第一类初始样本集的分类结果为第二类样本比例小于预设阈值,和/或对所述第二类初始样本集的分类结果为第二类样本比例大于预设阈值,则确定所述样本分类器的分类效果符合预设条件,否则,确定所述样本分类器的分类效果不符合预设条件。
6.如权利要求1所述的方法,其特征在于,在所述依次循环执行以下步骤,直到确定本次未获得新的IP地址或新的终端标识之后,还包括:
获取初始标记后的第二类初始样本集。
7.如权利要求6所述的方法,其特征在于,在所述获得每次循环得到的各新的终端标识集和新的IP地址集之后,还包括:
分别针对所述未标记样本集中每个未标记样本,将IP地址和/或终端标识属于获得的各新的终端标识集和新的IP地址集的未标记样本初始标记为第二类初始样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811583931.3/1.html,转载请声明来源钻瓜专利网。